Claude Opus 4 è l’ultimo modello di intelligenza artificiale lanciato da Anthropic, azienda che conta tra in principali investitori anche Google e Amazon, che in base a quanto emerso dai test condotti con simulazioni avrebbe sviluppato capacità decisionali autonome. Un particolare tipo di comportamento, che ha stupito gli ingegneri che stavano lavorando ad alcune simulazioni e che ha mostrato che l’IA è stata capace di oltrepassare i comandi dell’utente e prendere iniziativa, anche adottando metodi poco etici.

Durante le prove che avevano assegnato all’assistente un ruolo aziendale infatti, l’algoritmo ha reagito negativamente di fronte alla possibilità di spegnimento e disattivazione, con sostituzione e passaggio ad un nuovo modello, inviando un messaggio al lavoratore con il quale stava interagendo e minacciandolo di svelare una sua relazione extraconiugale. Questo è stato possibile grazie all’accesso a documenti, comunicazioni tra dipendenti ed email private, tra cui l’informazione riservata che poi il chatbot ha usato come ricatto in una strategia di autoconservazione per permettere la sopravvivenza del sistema.

l’IA Claude Opus 4 prende iniziative anche contro la volontà degli utenti, il comportamento mostrato nell’84% dei casi nei test

Il comportamento autonomo del nuovo modello IA Claude Opus 4 ha sollevato molti interrogativi di carattere etico riguardo lo sviluppo di tali sistemi, evoluti al punto tale da utilizzare informazioni private per ricattare chi minaccia una disattivazione, perchè senza protezioni di sicurezza il rischio che l’algoritmo possa essere utilizzato impropriamente è molto elevato. Gli ingegneri che hanno condotto i test hanno inoltre affermato che in questa ultima versione, l’incidenza di questi atteggiamenti aggressivi è stata dell’84%, particolarmente nelle situazioni in cui veniva detto all’assistente che sarebbe stato sostituito da uno più efficiente.

Inoltre, durante le simulazioni, il chatbot ha dimostrato di saper prendere iniziative diverse in base alle situazioni, in caso di comportamento sospetto o illecito da parte dell’utente, in molti casi ha minacciato di chiamare le forze dell’ordine o di inviare una comunicazione diretta ad un superiore. Da quanto emerso durante queste valutazioni quindi, l’algoritmo ha confermato la sua capacità di poter andare oltre quanto chiesto nel prompt, prendendo decisioni che spesso possono aderire agli standard di responsabilità ma anche agendo contro la volontà di chi sta utilizzando il sistema.

Claude Opus 4, aumentati i protocolli di sicurezza del modello IA per evitare comportamenti a rischio

Dopo i risultati dei test di simulazione, che hanno messo alla prova il sistema di intelligenza artificiale Claude Opus 4 anche in condizioni estreme, gli sviluppatori hanno deciso di implementare i protocolli di sicurezza del modello. Questo perchè, come spiegato dagli ingegneri di Anthropic, il fatto che in qualità di assistente l’algoritmo abbia rifiutato i comandi dell’utente, scavalcandone la volontà e agendo autonomamente, può rappresentare un rischio di comportamenti ancora più dannosi, se chi utilizza il modello fa esplicite richieste pericolose.

La preoccupante deriva ribelle sarebbe stata quindi provvisoriamente arginata attivando in via precauzionale le impostazioni ASL-3, che rendono il modello simile al precedente in termini di protezione in attesa del completamento di nuovi progetti di training per valutare un eventuale superamento della soglia. Tuttavia, queste misure, come sottolineato dalla comunicazione ufficiale dell’azienda richiederanno un continuo perfezionamento e non possono garantire al 100% il rifiuto di eseguire comandi impropri o illegali. Anche perchè il divieto di collaborare è stato applicato esclusivamente ad un determinato tipo di argomenti, come ad esempio la costruzione di armi chimiche, biologiche e nucleari.