I gruppi tecnologici si stanno affrettando a riprogettare il modo in cui testano e valutano i loro modelli di intelligenza artificiale, poiché la tecnologia in rapido progresso supera i parametri di riferimento attuali.
OpenAI, Microsoft, Meta e Anthropic hanno recentemente annunciato piani per costruire agenti AI in grado di eseguire attività per gli esseri umani in modo autonomo per loro conto. Per farlo in modo efficace, i sistemi devono essere in grado di eseguire azioni sempre più complesse, utilizzando il ragionamento e la pianificazione.
Le aziende conducono “valutazioni” dei modelli di intelligenza artificiale da parte di team di personale e ricercatori esterni. Si tratta di test standardizzati, noti come benchmark, che valutano le capacità dei modelli e le prestazioni dei sistemi di diversi gruppi o delle versioni precedenti.
Tuttavia, i recenti progressi nella tecnologia dell’intelligenza artificiale hanno fatto sì che molti dei modelli più recenti siano stati in grado di raggiungere una precisione vicina o superiore al 90% sui test esistenti, evidenziando la necessità di nuovi parametri di riferimento.
“Il ritmo del settore è estremamente rapido. Stiamo ora iniziando a saturare la nostra capacità di misurare alcuni di questi sistemi [and as an industry] sta diventando sempre più difficile da valutare [them]”, ha affermato Ahmad Al-Dahle, responsabile dell’intelligenza artificiale generativa presso Meta.
Per affrontare questo problema, diversi gruppi tecnologici tra cui Meta, OpenAI e Microsoft hanno creato i propri benchmark interni e test di intelligenza. Ma ciò ha sollevato preoccupazioni nel settore sulla capacità di confrontare la tecnologia in assenza di test pubblici.
“Molti di questi benchmark ci fanno capire quanto siamo lontani dall’automazione delle attività e dei lavori. Senza che vengano resi pubblici, è difficile per le aziende e la società in generale dirlo”, ha affermato Dan Hendrycks, direttore esecutivo del Center for AI Safety e consigliere di xAI di Elon Musk.
Gli attuali parametri di riferimento pubblici – Hellaswag e MMLU – utilizzano domande a scelta multipla per valutare il buon senso e la conoscenza su vari argomenti. Tuttavia, i ricercatori sostengono che questo metodo sta diventando ridondante e che i modelli necessitano di problemi più complessi.
“Stiamo arrivando a un'era in cui molti test scritti da esseri umani non sono più sufficienti come buon barometro per valutare la capacità dei modelli”, ha affermato Mark Chen, vicepresidente senior della ricerca presso OpenAI. “Ciò crea una nuova sfida per noi come mondo della ricerca”.
Un benchmark pubblico, SWE-bench Verified, è stato aggiornato in agosto per valutare meglio i sistemi autonomi sulla base del feedback delle aziende, inclusa OpenAI.
Utilizza problemi software reali provenienti dalla piattaforma di sviluppo GitHub e prevede di fornire all'agente AI un repository di codice e un problema tecnico, chiedendo loro di risolverlo. Le attività richiedono il ragionamento per essere completate.
Su questa misura l'ultimo modello di OpenAI, GPT-4o Preview, risolve il 41,4% dei problemi, mentre Claude 3.5 Sonnet di Anthropic ottiene il 49%.
“È molto più impegnativo [with agentic systems] perché è necessario connettere questi sistemi a molti strumenti aggiuntivi”, ha affermato Jared Kaplan, direttore scientifico di Anthropic.
“Devi fondamentalmente creare un intero ambiente sandbox in cui possano giocare. Non è così semplice come fornire semplicemente un suggerimento, vedere qual è il completamento e poi valutarlo”, ha aggiunto.
Un altro fattore importante quando si conducono test più avanzati è assicurarsi che le domande di benchmark siano tenute fuori dal pubblico dominio, al fine di garantire che i modelli non “imbroglino” effettivamente generando le risposte dai dati di addestramento anziché risolvendo il problema.
La capacità di ragionare e pianificare è fondamentale per sbloccare il potenziale degli agenti IA che possono svolgere attività su più passaggi e applicazioni e correggersi.
“Stiamo scoprendo nuovi modi per misurare questi sistemi e ovviamente uno di questi è il ragionamento, che è una frontiera importante”, ha affermato Ece Kamar, vicepresidente e direttore del laboratorio di AI Frontiers presso Microsoft Research.
Di conseguenza, Microsoft sta lavorando su un proprio benchmark interno, incorporando problemi che non sono mai apparsi in precedenza nella formazione per valutare se i suoi modelli di intelligenza artificiale possono ragionare come farebbe un essere umano.
Alcuni, compresi i ricercatori di Apple, si sono chiesti se gli attuali modelli linguistici di grandi dimensioni siano “ragionanti” o puramente “corrispondenti a modelli” dei dati simili più vicini osservati nella loro formazione.
“Nei domini più ristretti [that] le aziende si preoccupano e ragionano”, ha affermato Ruchir Puri, capo scienziato di IBM Research. “[The debate is around] questo concetto più ampio di ragionamento a livello umano, che lo collocherebbe quasi nel contesto dell’intelligenza artificiale generale. Ragionano davvero o ripetono a pappagallo?»
OpenAI misura il ragionamento principalmente attraverso valutazioni che riguardano matematica, materie STEM e attività di codifica.
“Il ragionamento è un termine molto grandioso. Ognuno lo definisce in modo diverso e ne dà la propria interpretazione. . . questo confine è molto confuso [and] cerchiamo di non impantanarci troppo con questa distinzione in sé, ma guardiamo se si tratta di utilità, prestazioni o capacità”, ha affermato Chen di OpenAI.
La necessità di nuovi parametri di riferimento ha portato anche agli sforzi di organizzazioni esterne.
A settembre, la start-up Scale AI e Hendrycks hanno annunciato un progetto chiamato “Humanity's Last Exam”, che ha raccolto in crowdsourcing domande complesse da parte di esperti di diverse discipline che richiedevano un ragionamento astratto per essere completate.
Un altro esempio è FrontierMath, un nuovo benchmark pubblicato questa settimana, creato da matematici esperti. Sulla base di questo test, i modelli più avanzati riescono a completare meno del 2% delle domande.
Tuttavia, senza un accordo esplicito sulla misurazione di tali capacità, gli esperti avvertono che può essere difficile per le aziende valutare i propri concorrenti o per aziende e consumatori comprendere il mercato.
“Non esiste un modo chiaro per dire 'questo modello è decisamente migliore di questo modello' [because] quando una misura diventa un obiettivo, cessa di essere una buona misura” e i modelli vengono addestrati per superare i parametri di riferimento stabiliti, ha affermato Al-Dahle di Meta.
“È qualcosa su cui, come intero settore, stiamo lavorando”.