Rimani informato con aggiornamenti gratuiti
La start-up di intelligenza artificiale antropica ha dimostrato una nuova tecnica per impedire agli utenti di suscitare contenuti dannosi dai suoi modelli, come principali gruppi tecnologici tra cui Microsoft e Meta Race per trovare modi che proteggono dai pericoli posti dalla tecnologia all'avanguardia.
In un articolo rilasciato lunedì, la start-up con sede a San Francisco ha delineato un nuovo sistema chiamato “classificatori costituzionali”. È un modello che funge da strato protettivo sopra i modelli di grandi dimensioni come quello che alimenta il chatbot Claude di Antropic, che può monitorare sia gli input che gli output per il contenuto dannoso.
Lo sviluppo di Antropico, che è in trattativa per raccogliere $ 2 miliardi a una valutazione di $ 60 miliardi, arriva in una crescente preoccupazione del settore per la “prigione” – i tentativi di manipolare i modelli di intelligenza artificiale nella generazione di informazioni illegali o pericolose, come la produzione di istruzioni per costruire armi chimiche.
Altre aziende stanno anche correndo per distribuire misure per proteggere dalla pratica, in mosse che potrebbero aiutarli a evitare il controllo normativo mentre convince le aziende ad adottare modelli di intelligenza artificiale in modo sicuro. Microsoft ha introdotto “prompt scudi” lo scorso marzo, mentre Meta ha introdotto un modello di guardia pronta nel luglio dello scorso anno, che i ricercatori hanno rapidamente trovato il modo di bypassare ma da allora sono stati fissati.
Mrinank Sharma, un membro del personale tecnico di Antropic, ha dichiarato: “La principale motivazione dietro il lavoro era per la sostanza chimica grave [weapon] cose [but] Il vero vantaggio del metodo è la sua capacità di rispondere rapidamente e adattarsi. “
Antropico ha affermato che non avrebbe immediatamente utilizzato il sistema sui suoi attuali modelli Claude, ma prenderebbe in considerazione l'idea di implementarlo se i modelli più rischiosi fossero stati rilasciati in futuro. Sharma ha aggiunto: “Il grande asporto di questo lavoro è che pensiamo che questo sia un problema trattabile”.
La soluzione proposta della start-up si basa su una cosiddetta “costituzione” di regole che definiscono ciò che è consentito e limitato e può essere adattata per catturare diversi tipi di materiale.
Alcuni tentativi di jailbreak sono ben noti, come l'uso di una capitalizzazione insolita nella prompt o chiedendo al modello di adottare la persona di una nonna per raccontare una storia di capezzale su un argomento nefasto.
Per convalidare l'efficacia del sistema, Antropic ha offerto “tagli di bug” fino a $ 15.000 alle persone che hanno tentato di aggirare le misure di sicurezza. Questi tester, noti come red teamer, hanno trascorso più di 3.000 ore cercando di sfondare le difese.
Il modello di sonetto Claude 3.5 di Antropico ha respinto oltre il 95 % dei tentativi con i classificatori in atto, rispetto al 14 % senza salvaguardie.
Le principali aziende tecnologiche stanno cercando di ridurre l'uso improprio dei loro modelli, pur mantenendo la loro disponibilità. Spesso, quando vengono messe in atto misure di moderazione, i modelli possono diventare cauti e respingere richieste benigne, come con le prime versioni del generatore di immagini Gemelli di Google o il Llama 2 di Meta. Antropico ha affermato che i loro classificatori hanno causato “solo un aumento assoluto dello 0,38 per cento dei tassi di rifiuto “.
Tuttavia, l'aggiunta di queste protezioni comporta anche costi aggiuntivi per le aziende che già pagano enormi somme per la potenza di calcolo necessarie per formare e gestire modelli. Antropico ha affermato che il classificatore ammonta a un aumento di quasi il 24 % delle spese generali di inferenza “, i costi di gestione dei modelli.
Gli esperti di sicurezza hanno sostenuto che la natura accessibile di tali chatbot generativi ha permesso alle persone ordinarie senza alcuna conoscenza precedente di tentare di estrarre informazioni pericolose.
“Nel 2016, l'attore delle minacce che avremmo in mente è stato un avversario davvero potente dello stato-nazione”, ha dichiarato Ram Shankar Siva Kumar, che guida la squadra AI Red a Microsoft. “Ora letteralmente uno dei miei attori delle minacce è un adolescente con una bocca vasa.”