Rimani informato con aggiornamenti gratuiti
Innanzitutto, apprendiamo che i modelli di intelligenza artificiale generativa possono “allucinare”, un modo elegante per dire che i grandi modelli linguistici inventano cose. Come mi ha informato ChatGPT stesso (in questo caso in modo affidabile), gli LLM possono generare falsi eventi storici, persone inesistenti, false teorie scientifiche e libri e articoli immaginari. Ora, i ricercatori ci dicono che alcuni LLM potrebbero crollare sotto il peso delle loro stesse imperfezioni. È davvero questa la tecnologia meravigliosa della nostra epoca su cui sono stati spesi centinaia di miliardi di dollari?
In un articolo pubblicato su Nature la scorsa settimana, un team di ricercatori ha esplorato i pericoli dell'”inquinamento dei dati” nei sistemi di addestramento AI e i rischi di collasso del modello. Avendo già ingerito la maggior parte dei trilioni di parole generate dall'uomo su Internet, gli ultimi modelli di IA generativa ora si affidano sempre di più a dati sintetici creati dagli stessi modelli di IA. Tuttavia, questi dati generati dai bot possono compromettere l'integrità dei set di addestramento a causa della perdita di varianza e della replicazione degli errori. “Abbiamo scoperto che l'uso indiscriminato di contenuti generati dal modello nell'addestramento causa difetti irreversibili nei modelli risultanti”, hanno concluso gli autori.
Sembra che, come il mitico serpente antico Uroboro, queste modelle si stiano mangiando la coda.
Ilia Shumailov, autore principale del paper mentre era ricercatore all'Università di Oxford, mi dice che la conclusione principale della ricerca è che il tasso di sviluppo dell'IA generativa probabilmente rallenterà man mano che i dati di alta qualità diventeranno più scarsi. “La premessa principale del paper è che i sistemi che stiamo attualmente costruendo si degraderanno”, afferma.
La società di ricerca Epoch AI stima che attualmente ci sono 300tn di token (piccole unità di dati) di testo pubblico generato dall'uomo, sufficientemente buoni da essere utilizzati per scopi di formazione. Secondo le sue previsioni, tale stock di dati potrebbe esaurirsi entro il 2028. Quindi, non ci saranno abbastanza dati freschi di alta qualità generati dall'uomo da immettere nella tramoggia e un eccessivo affidamento sui dati sintetici potrebbe diventare problematico, come suggerisce il documento di Nature.
Ciò non significa che i modelli esistenti, per lo più formati su dati generati dall'uomo, diventeranno inutili. Nonostante le loro abitudini allucinatorie, possono ancora essere applicati a una miriade di usi. In effetti, i ricercatori affermano che potrebbe esserci un vantaggio di primo arrivato per i primi LLM formati su dati non inquinati che ora non sono disponibili per i modelli di prossima generazione. La logica suggerisce che ciò aumenterà anche il valore dei dati freschi, privati e generati dall'uomo: gli editori ne prendano nota.
I pericoli teorici del collasso del modello sono stati discussi per anni e i ricercatori sostengono ancora che l'uso discriminatorio di dati sintetici può essere inestimabile. Tuttavia, è chiaro che i ricercatori di IA dovranno dedicare molto più tempo e denaro alla pulizia dei loro dati. Un'azienda che sta esplorando i modi migliori per farlo è Hugging Face, la piattaforma di apprendimento automatico collaborativo utilizzata dalla comunità di ricerca.
Hugging Face ha creato set di training altamente curati, inclusi dati sintetici. Si è anche concentrato su piccoli modelli linguistici in domini specifici, come medicina e scienza, che sono più facili da controllare. “La maggior parte dei ricercatori detesta la pulizia dei dati. Ma devi mangiare le tue verdure. A un certo punto, tutti devono dedicare il loro tempo a questo”, afferma Anton Lozhkov, un ingegnere di apprendimento automatico presso Hugging Face.
Sebbene i limiti dei modelli di IA generativa stiano diventando più evidenti, è improbabile che facciano deragliare la rivoluzione dell'IA. In effetti, ora potrebbe esserci una rinnovata attenzione sui campi di ricerca dell'IA adiacenti, che sono stati relativamente trascurati di recente ma che potrebbero portare a nuovi progressi. Alcuni ricercatori di IA generativa sono particolarmente incuriositi dai progressi compiuti nell'IA incarnata, come nei robot e nei veicoli autonomi.
Quando all'inizio di quest'anno ho intervistato la scienziata cognitiva Alison Gopnik, lei ha ipotizzato che fossero i robotici a costruire davvero l'intelligenza artificiale fondamentale: i loro sistemi non erano prigionieri di Internet, ma si avventuravano nel mondo reale, estraendo informazioni dalle loro interazioni e adattando di conseguenza le loro risposte.
“Quella è la strada che dovresti seguire se volessi davvero progettare qualcosa di veramente intelligente”, ha suggerito.
Dopotutto, come ha sottolineato Gopnik, è esattamente così che l'intelligenza biologica è emersa originariamente dalla palude primordiale. I nostri ultimi modelli di IA generativa potrebbero affascinarci con le loro capacità. Ma hanno ancora molto da imparare da l'evoluzione dei vermi e delle spugne più primitivi più di mezzo miliardo di anni fa.
