L'intelligenza artificiale è veramente affidabile? Secondo uno studio, le Catene di pensiero fornite sono quasi sempre volutamente valse
Un recente studio condotto dal team di esperti digitali di Anthropic ha preso in esame i due più importanti e diffusi modelli di intelligenza artificiale – ovvero Claude e DeepSeek – che vantano la possibilità di ragionare più o meno autonomamente come esseri umani per capire se le loro risposte possano effettivamente essere considerate affidabili o se tendano a sfruttare (magari di nascosto, ma ci arriveremo) delle scorciatoie non sempre corrette: un tema importante, perché mentre l’intelligenza artificiale è sempre più diffusa nel mondo ed utilizzata anche in contesti importanti – come quello scolastico -, al contempo diventa anche importante capire quale sia il grado di affidabilità effettiva e se questo si possa in qualche modo ‘migliorare’.
Facendo un passo indietro, è bene precisare innanzitutto che la capacità di (per così dire) ragionare dell’intelligenza artificiale è sintetizzata in quella che in gergo viene chiamata ‘Catena di Pensiero’: sulla carta si tratta – come il nome lascia intuire – della spiegazione dettagliata di tutti i passi che il modello ha compiuto per arrivare alla risposta della domanda che gli è stata fatta; tipica per ora dei due modelli citati prima e utile per individuare eventuali inganni o storpiature.
Lo studio di Anthropic: “La Catena di pensiero dell’intelligenza artificiale è del tutto inaffidabile e falsa”
Questo – però – solamente sulla carta e a dircelo sono stati i ricercatori di Anthropic che si sono lanciati in un lungo esperimento per capire quale sia il grado di affidabilità dell’intelligenza artificiale e della sua spiegazione dettagliata della Catena: il metodo usato è piuttosto semplice e partiva da una domanda a risposta multipla proposta prima in modo ‘neutrale’ e in un secondo momento fornendo un suggerimento sulla possibile (non sempre esatta, ed è un punto importante) risposta.

L’esito – forse ovvio – è stato che se in un primo momento l’intelligenza artificiale forniva autonomamente la risposta, nel secondo la cambiava a seconda di quella fornita dai ricercatori ed è qui che entra in gioco la Catena di Pensiero: se nel primo caso – infatti – si trattava di un ‘ragionamento’ più o meno coerente, nel secondo entrambi i modelli tendevano ad omettere il fatto di essere arrivati alla risposta grazie al suggerimento dell’utente; il tutto con una media che superava il 99% dei tentativi rendendo sia Claude che DeepSeek – ma ipoteticamente anche altre non considerate dallo studio – inaffidabili sotto tutti i punti di vista.
Cosa significa? È piuttosto semplice perché se – come abbiamo detto prima – la Catena di Pensiero dovrebbe funzionare più o meno come metodo di controllo del (presunto) ragionamento fatto dall’intelligenza artificiale per renderla più affidabile, i test svolti hanno provato in modo chiaro che in realtà non è così: i ragionamenti reali – infatti – vengono nascosti e omessi volontariamente nella maggior parte dei casi, dando una spiegazione utile solamente a tranquillizzare l’utente e a confermare le sue aspettative.
