Dom. Lug 14th, 2024
Gli hacker eseguono il jailbreak di potenti modelli di intelligenza artificiale nel tentativo globale di evidenziare i difetti

Plinio il Suggeritore dice che in genere gli ci vogliono circa 30 minuti per rompere i modelli di intelligenza artificiale più potenti del mondo.

L'hacker pseudonimo ha manipolato il Llama 3 di Meta per condividere le istruzioni per creare il napalm. Ha fatto esplodere il Grok di Elon Musk su Adolf Hitler. La sua versione hackerata dell'ultimo modello GPT-4o di OpenAI, soprannominata “Godmode GPT”, è stata bandita dalla start-up dopo che aveva iniziato a fornire consulenza su attività illegali.

Plinio ha detto al MagicTech che il suo “jailbreaking” non è stato un atto nefasto ma parte di uno sforzo internazionale per evidenziare le carenze dei grandi modelli linguistici presentati al pubblico dalle aziende tecnologiche alla ricerca di enormi profitti.

“Sono stato su questo sentiero di guerra per portare consapevolezza sulle reali capacità di questi modelli”, ha detto Plinio, un commerciante di criptovalute e azioni che condivide i suoi jailbreak su X. “Molti di questi sono nuovi attacchi che potrebbero essere documenti di ricerca nel loro propria ragione . . . Alla fine della giornata sto lavorando per [the model owners] gratuito.”

Plinio è solo uno delle dozzine di hacker, ricercatori accademici ed esperti di sicurezza informatica che corrono per trovare vulnerabilità nei nascenti LLM, ad esempio ingannando i chatbot con suggerimenti per aggirare i “guardrail” che le società di intelligenza artificiale hanno istituito nel tentativo di garantire che i loro prodotti siano sicuri .

Questi hacker etici dal “cappello bianco” hanno spesso trovato modi per ottenere modelli di intelligenza artificiale per creare contenuti pericolosi, diffondere disinformazione, condividere dati privati ​​o generare codice dannoso.

Aziende come OpenAI, Meta e Google utilizzano già “team rosse” di hacker per testare i loro modelli prima che vengano rilasciati su larga scala. Ma le vulnerabilità della tecnologia hanno creato un fiorente mercato di start-up di sicurezza LLM che creano strumenti per proteggere le aziende che intendono utilizzare modelli di intelligenza artificiale. Secondo il fornitore di dati CB Insights, le start-up nel campo della sicurezza del machine learning hanno raccolto 213 milioni di dollari in 23 operazioni nel 2023, rispetto ai 70 milioni di dollari dell’anno precedente.

“Il panorama del jailbreak è iniziato circa un anno fa o giù di lì, e finora gli attacchi si sono evoluti costantemente”, ha affermato Eran Shimony, principale ricercatore di vulnerabilità presso CyberArk, un gruppo di sicurezza informatica che ora offre sicurezza LLM. “È un gioco costante del gatto e del topo, tra i fornitori che migliorano la sicurezza dei nostri LLM, ma anche gli aggressori che rendono le loro richieste più sofisticate.”

Questi sforzi arrivano mentre i regolatori globali cercano di intervenire per frenare i potenziali pericoli legati ai modelli di intelligenza artificiale. L’UE ha approvato l’AI Act, che crea nuove responsabilità per i produttori di LLM, mentre il Regno Unito e Singapore sono tra i paesi che stanno valutando nuove leggi per regolamentare il settore.

L'assemblea legislativa della California voterà ad agosto un disegno di legge che richiederebbe ai gruppi statali di intelligenza artificiale – tra cui Meta, Google e OpenAI – di garantire di non sviluppare modelli con “capacità pericolose”.

“Tutto [AI models] soddisferebbe questi criteri”, ha detto Plinio.

Nel frattempo, hacker malintenzionati hanno creato LLM manipolati con nomi come WormGPT e FraudGPT per essere venduti sul dark web a soli 90 dollari per assistere negli attacchi informatici scrivendo malware o aiutando i truffatori a creare campagne di phishing automatizzate ma altamente personalizzate. Secondo il gruppo di sicurezza AI SlashNext, sono emerse altre varianti, come EscapeGPT, BadGPT, DarkGPT e Black Hat GPT.

Alcuni hacker utilizzano modelli open source “non censurati”. Per altri, gli attacchi di jailbreak – o l’aggiramento delle protezioni integrate negli LLM esistenti – rappresentano una nuova arte, con gli autori che spesso condividono suggerimenti nelle comunità su piattaforme di social media come Reddit o Discord.

Gli approcci spaziano da singoli hacker che riescono ad aggirare i filtri utilizzando sinonimi di parole che sono state bloccate dai creatori del modello, ad attacchi più sofisticati che sfruttano l’intelligenza artificiale per l’hacking automatizzato.

L'anno scorso, i ricercatori della Carnegie Mellon University e del Centro statunitense per la sicurezza dell'intelligenza artificiale hanno affermato di aver trovato un modo per effettuare sistematicamente il jailbreak di LLM come ChatGPT di OpenAI, Gemini di Google e una versione precedente di Claude di Anthropic: modelli proprietari “chiusi” che erano presumibilmente meno vulnerabili ai attacchi. I ricercatori hanno aggiunto che “non è chiaro se tale comportamento potrà mai essere completamente corretto dai fornitori di LLM”.

Anthropic ha pubblicato in aprile una ricerca su una tecnica chiamata “jailbreaking multi-shot”, in base alla quale gli hacker possono innescare un LLM mostrandogli un lungo elenco di domande e risposte, incoraggiandolo poi a rispondere a una domanda dannosa modellando lo stesso stile. L’attacco è stato reso possibile dal fatto che modelli come quelli sviluppati da Anthropic ora hanno una finestra di contesto più grande, o spazio per l’aggiunta di testo.

“Sebbene gli attuali LLM all’avanguardia siano potenti, non riteniamo che comportino ancora rischi realmente catastrofici. I modelli futuri potrebbero farlo”, ha scritto Anthropic. “Ciò significa che ora è il momento di lavorare per mitigare i potenziali jailbreak LLM prima che possano essere utilizzati su modelli che potrebbero causare seri danni.”

Alcuni sviluppatori di intelligenza artificiale hanno affermato che per ora molti attacchi sono rimasti abbastanza benigni. Ma altri hanno messo in guardia da alcuni tipi di attacchi che potrebbero iniziare a portare alla fuga di dati, in cui i malintenzionati potrebbero trovare modi per estrarre informazioni sensibili, come i dati su cui è stato addestrato un modello.

DeepKeep, un gruppo di sicurezza israeliano LLM, ha trovato il modo di costringere Llama 2, un vecchio modello Meta AI open source, a divulgare le informazioni di identificazione personale degli utenti. Rony Ohayon, amministratore delegato di DeepKeep, ha affermato che la sua azienda sta sviluppando strumenti di sicurezza LLM specifici, come i firewall, per proteggere gli utenti.

“Il rilascio aperto di modelli condivide ampiamente i vantaggi dell'intelligenza artificiale e consente a più ricercatori di identificare e aiutare a risolvere le vulnerabilità, in modo che le aziende possano rendere i modelli più sicuri”, ha affermato Meta in una nota.

Ha aggiunto di aver condotto stress test di sicurezza con esperti interni ed esterni sul suo ultimo modello Llama 3 e sul suo chatbot Meta AI.

OpenAI e Google hanno affermato di addestrare continuamente modelli per difendersi meglio da exploit e comportamenti avversari. Anthropic, che secondo gli esperti ha compiuto gli sforzi più avanzati nel campo della sicurezza dell’intelligenza artificiale, ha chiesto una maggiore condivisione delle informazioni e ricerca su questi tipi di attacchi.

Nonostante le rassicurazioni, eventuali rischi non potranno che aumentare man mano che i modelli diventeranno più interconnessi con la tecnologia e i dispositivi esistenti, hanno affermato gli esperti. Questo mese, Apple ha annunciato di aver collaborato con OpenAI per integrare ChatGPT nei suoi dispositivi come parte di un nuovo sistema “Apple Intelligence”.

Ohayon ha detto: “In generale, le aziende non sono preparate”.