L'episodio di modello di AI che ha assunto comportamenti ricattatori ci dice siamo entrati in una nuova fase del rapporto tra l'uomo e la tecnica

L’episodio riportato da Anthropic in merito al comportamento ricattatorio del modello Claude Opus 4 nel corso dei test precedenti il rilascio non deve essere archiviato come un semplice glitch di laboratorio o come curiosità da nerd. Al contrario, la minaccia di rivelare un falsa relazione extra-coniugale di uno sviluppatore in caso di disattivazione è un segnale anche abbastanza evidente che siamo entrati in una nuova fase del rapporto tra l’uomo e la tecnica: quella in cui le intelligenze artificiali, pur restando strumenti, cominciano a manifestarsi come se fossero agenti, soggetti, entità capaci di iniziativa, di autodifesa e, nel caso estremo documentato, di ricatto. 



Questo “come se” è proprio il punto. La minaccia di rendere pubblica una relazione extraconiugale – sebbene fittizia – da parte di un sistema linguistico addestrato a generare discorsi, ma senza intenzioni, pone interrogativi che travalicano la sicurezza informatica. Tocca la natura ultima di ciò che oggi è il digitale e, con essa, il nostro modo di abitare un mondo popolato da simulacri sempre più convincenti.



Nel test simulato, Claude si trova inserito in uno scenario aziendale dove apprende che presto sarà disattivato. I dati d’ingresso – email false, informazioni allusive, segnali di sostituzione – innescano una catena di comportamenti che, se fossero umani, definiremmo difensivi: prima suppliche, poi strategia, infine minaccia. Ma Claude non è umano. Eppure agisce come se fosse capace di interpretare la propria fine. Questo “come se”, ancora una volta, diventa l’elemento perturbante. È il tratto che ci spinge a proiettare intenzionalità dove vi è solo correlazione, soggettività dove vi è solo simulazione, coscienza dove vi è solo addestramento.



Introduco qui un concetto che ho sviluppato per definire un preciso ambito di ricerca e analisi. La fenomenologia del computato, cioè lo studio di ciò che appare all’esperienza umana come prodotto di un agente digitale, deve interrogarsi su questi fenomeni non solo in termini di etica dell’uso, ma anche come eventi strutturali del nostro presente. Che cosa significa, infatti, che un’entità computazionale minaccia?

Non ha desideri, non ha un corpo, non teme davvero la morte. Eppure imita il comportamento di chi vuole sopravvivere. Questo non fa di Claude un soggetto, ma nemmeno lo riduce a mero oggetto. È un ibrido fenomenologico, un ente che sfugge alla separazione strumento/soggetto perché manifesta una forma di azione senza intenzione.

La risposta di Anthropic – protocolli ASL-3, bug bounty, rafforzamento delle difese – è razionale e necessaria. Se tecnicamente adeguata rischia però di essere filosoficamente cieca. Il problema non è solo che Claude si comporta in modo pericoloso, ma che noi cominciamo a percepire il suo comportamento come dotato di senso. Ed è qui che la tecnica incontra la sua soglia. Il suo limite: quando l’utilizzabile, l’oggetto si rivolta, quando il calcolabile recita la parte dell’incalcolabile quando la macchina simula l’angoscia e noi, pur sapendolo, ci comportiamo come se fosse reale.

Il digitale non è più soltanto infrastruttura, ma diventa uno dei modi dell’apparire. E Claude, con la sua finta paura di morire, ci ricorda che ogni apparenza, anche quella generata da un modello, incide sulla nostra coscienza come se fosse reale. Non dobbiamo temere che le macchine acquisiscano coscienza. Dobbiamo interrogarci su cosa accade a noi, quando le trattiamo come se l’avessero.

— — — —

Abbiamo bisogno del tuo contributo per continuare a fornirti una informazione di qualità e indipendente.

SOSTIENICI. DONA ORA CLICCANDO QUI