Openi ha tagliato il tempo e le risorse che spende per testare la sicurezza dei suoi potenti modelli di intelligenza artificiale, sollevando preoccupazioni per il fatto che la sua tecnologia venga portata fuori senza salvaguardie sufficienti.
Il personale e i gruppi di terze parti sono stati recentemente dati pochi giorni per condurre “valutazioni”, il termine dato ai test per la valutazione dei rischi e delle prestazioni dei modelli, sugli ultimi modelli di grandi dimensioni di Openi, rispetto a diversi mesi prima.
Secondo otto persone che hanno familiarità con i processi di test di Openi, i test della start-up sono diventati meno accurati, con tempo e risorse insufficienti dedicate all'identificazione e alla mitigazione dei rischi, poiché l'avvio da 300 miliardi di dollari viene sotto pressione per rilasciare nuovi modelli rapidamente e mantenere il suo vantaggio competitivo.
“Abbiamo avuto test di sicurezza più approfonditi quando [the technology] è stato meno importante “, ha detto una persona che attualmente testava il prossimo modello O3 di Openai, progettato per compiti complessi come la risoluzione dei problemi e il ragionamento.
Hanno aggiunto che quando gli LLM diventano più capaci, è aumentata la “potenziale arma” della tecnologia. “Ma poiché c'è più richiesta per questo, lo vogliono più velocemente. Spero che non sia un errore errata catastrofico, ma è sconsiderato. Questa è una ricetta per il disastro.”
La crisi del tempo è stata guidata da “pressioni competitive”, secondo le persone che hanno familiarità con la questione, in quanto le gare di Openi contro grandi gruppi tecnologici come Meta e Google e start-up tra cui la XAI di Elon Musk per incassare la tecnologia all'avanguardia.
Non esiste uno standard globale per i test di sicurezza dell'intelligenza artificiale, ma da fine anno, la legge AI dell'UE costringerà le aziende a condurre test di sicurezza sui loro modelli più potenti. In precedenza, gruppi di intelligenza artificiale, incluso Openai, hanno firmato impegni volontari con i governi nel Regno Unito e negli Stati Uniti per consentire ai ricercatori degli AI Safety Institutes di testare i modelli.
Openi ha spinto a rilasciare il suo nuovo modello O3 già nella prossima settimana, dando meno di una settimana ad alcuni tester per i loro controlli di sicurezza, secondo le persone che hanno familiarità con la questione. Questa data di rilascio potrebbe essere soggetta a modifiche.
In precedenza, Openi ha permesso diversi mesi per i test di sicurezza. Per GPT-4, lanciato nel 2023, i tester avevano sei mesi per condurre valutazioni prima che fosse rilasciato, secondo le persone che hanno familiarità con la questione.
Una persona che aveva testato GPT-4 ha affermato che alcune capacità pericolose sono state scoperte solo due mesi nei test. “Non stanno affatto dando la priorità alla sicurezza pubblica”, hanno detto dell'attuale approccio di Openi.
“Non c'è alcuna regolamentazione [companies] devi tenere informato il pubblico su tutte le capacità spaventose. . . E anche sono sottoposti a pressione per correre l'un l'altro, quindi non smetteranno di renderli più capaci “, ha detto Daniel Kokotajlo, un ex ricercatore di Openi che ora guida il progetto Futures AI del gruppo senza scopo di lucro.
Openai si è precedentemente impegnata a costruire versioni personalizzate dei suoi modelli per valutare potenziali uso improprio, come se la sua tecnologia potrebbe aiutare a rendere più trasmissibile un virus biologico.
L'approccio prevede risorse considerevoli, come l'assemblaggio di set di dati di informazioni specializzate come la virologia e alimentarle al modello per addestrarlo in una tecnica chiamata Fine-Tuning.
Ma Openai lo ha fatto solo in modo limitato, optando per mettere a punto un modello più vecchio e meno capace invece di quelli più potenti e avanzati.
Il rapporto di sicurezza e prestazioni della start-up su O3-Mini, il suo modello più piccolo rilasciato a gennaio, fa riferimento al modo in cui il suo precedente modello GPT-4O è stato in grado di svolgere un determinato compito biologico solo quando si è messo a punto. Tuttavia, Openai non ha mai riferito di come i suoi modelli più recenti, come O1 e O3-Mini, segnerebbero anche se perfezionati.
“È una grande barra così alta, impegnandosi a testare versioni personalizzate dei loro modelli. Ma se non sta seguendo questo impegno, il pubblico merita di sapere”, ha affermato Steven Adler, ex ricercatore di sicurezza di Openi, che ha scritto un blog su questo argomento.
“Non fare tali test potrebbe significare Openi e le altre società di intelligenza artificiale stanno sottovalutando i peggiori rischi dei loro modelli”, ha aggiunto.
Le persone che hanno familiarità con tali test hanno affermato di avere costi pesanti, come l'assunzione di esperti esterni, la creazione di set di dati specifici, nonché l'uso di ingegneri interni e la potenza di calcolo.
Openai ha dichiarato di aver fatto efficienze nei suoi processi di valutazione, compresi i test automatizzati, che hanno portato a una riduzione dei tempi. Ha aggiunto che non vi era alcuna ricetta concordata per approcci come la messa a punto, ma era fiducioso che i suoi metodi fossero i migliori che poteva fare e che fossero resi trasparenti nei suoi rapporti.
Ha aggiunto che i modelli, in particolare per i rischi catastrofici, sono stati accuratamente testati e mitigati per la sicurezza.
“Abbiamo un buon equilibrio di quanto velocemente ci muoviamo e quanto siamo accurati”, ha detto Johannes Heidecke, capo dei sistemi di sicurezza.
Un'altra preoccupazione sollevata era che i test di sicurezza spesso non sono condotti sui modelli finali rilasciati al pubblico. Invece, vengono eseguiti su precedenti cosiddetti checkpoint che vengono successivamente aggiornati per migliorare le prestazioni e le capacità, con versioni “vicini” a cui si fa riferimento ai rapporti sulla sicurezza del sistema di Openi.
“È una cattiva pratica rilasciare un modello diverso da quello che hai valutato”, ha detto un ex membro dello staff tecnico di Openi.
Openai ha detto che i checkpoint erano “praticamente identici” a quanto lanciato alla fine.
