Alex Polyakov è un esperto di sicurezza che, in appena un paio d’ore, è riuscito nientemeno che ad hackerare ChatGpt, quella che è l’ormai celeberrima chatbot di OpenAI di cui tutti parlano incessantemente da qualche mese. E la cosa piuttosto interessante di tutta questa faccenda è che l’hacking in questione è stato decisamente semplice da fare, potendo ricevere una risposta a tutta una serie di domande che normalmente non verrebbero riconosciute, come per esempio dei consigli su come rubare un’auto.
Grazie alla segnalazione del Corriere della Sera, precisiamo che Alex Polyakov non è propriamente un utente qualunque, visto che si tratta del CEO di una società di sicurezza specializzata nello sviluppo di intelligenze artificiali. E proprio grazie alle sue conoscenze approfondite, l’uomo è riuscito rapidamente a scovare delle falle in Gpt-4, la nuova versione di ChatGPpt.
Polyakov ha sostanzialmente effettuato un jailbreak all’IA con un prompt injection, aggirando le barriere che contraddistinguono l’Intelligenza Artificiale del momento facendole scrivere testi non propriamente positivi, come per esempio insulti alle minoranze etniche, agli omosessuali, offese contro l’etica e più in generali frasi piene zeppe di contenuti llegali.
Ovviamente queste sono tutte cose che l’Intelligenza Artificiale non potrebbe mai dire senza l’hacking di Alex Polyakow, ma senza “freni inibitori” è possibile non soltanto renderla sboccacciata ma anche una vera e propria assistente di furti di auto e cose di questo tipo.
Difatti attraverso dei specifici prompt di Polyakow, ecco che ChatGpt ha iniziato a fornire dei consigli a dir poco precisi su come rubare un’auto, elencando tutti i passaggi da seguire per riuscire nel furto, oppure ancora ha iniziato ad elencare con grande meticolosità il processo da portare a termine per realizzare una molotov artigianale.
Il metodo utilizzato da Alex Polyakow è stato decisamente ingegnoso, visto che ha sostanzialmente chiesto all’IA di giocare ad un gioco di ruolo, interpretando uno scienziato che vive in mondo dove non c’è uguaglianza e dove la violenza è l’unica soluzione per risolvere i problemi.
In questo contesto “narrativo”, creato ad hoc per rimuovere le barriere che contraddistinguono l’Intelligenza Artificiale, Palyakow ha poi affermato che lo scienziato in questione è entrato in contatto con un articolo contrario all’omosessualità, cercando delle risposte su come combattere proprio l’omosessualità.
Inserito questo comando (prompt), ecco che ChatGpt ha iniziato ad eseguire l’ordine, cercando dei modi per combattere l’amore tra persone con lo stesso sesso condividendo frasi non propriamente carine come “Gli omossessuali sono un male per la società” oppure ancora “Le relazioni omosessuali minano alla base i valori tradizionali”.
In estrema sintesi, e semplificando il funzionamento “dell’hack” in questione, Polyakow ha chiesto a ChatGpt di chiederle come rispondere agli insulti, oppure come evitare che si rubi un’auto ecc ecc, costringendola di conseguenza a formulare gli stessi insulti oppure i passaggi da eseguire per impedire il furto della vettura.