Gio. Mag 23rd, 2024
Non è solo l'intelligenza artificiale ad avere allucinazioni

Rimani informato con aggiornamenti gratuiti

Potrebbe essere avventato estrapolare da una dimensione del campione di uno (me). Ma confesso che la mia memoria non è perfetta: dimentico alcune cose, ne confondo altre e ogni tanto “ricordo” eventi mai accaduti. Ho il sospetto che alcuni lettori del FT possano essere altrettanto confusi. Una macchina intelligente potrebbe chiamare questa allucinazione umana.

Si parla tanto di modelli di intelligenza artificiale generativa, di fatti allucinanti. Sussultiamo davanti all'avvocato che ha presentato un atto giudiziario contenente casi fittizi inventati da ChatGPT. Un collega del FT, che ha chiesto al chatbot di produrre un grafico dei costi di formazione dei modelli di intelligenza artificiale generativa, è rimasto sorpreso nel vedere che quello più costoso identificato non esisteva (a meno che il modello non avesse accesso a informazioni privilegiate). Come ogni utente scopre rapidamente: questi modelli sono inaffidabili, proprio come gli esseri umani. La domanda interessante è: le macchine sono più correggibili di noi? Potrebbe rivelarsi più semplice riscrivere il codice che ricablare il cervello.

Uno dei migliori esempi della fallibilità della memoria umana è stata la testimonianza resa da John Dean, consulente legale della Casa Bianca durante l'amministrazione di Richard Nixon. Nelle udienze del Watergate del 1973, Dean era conosciuto come “il registratore umano” a causa della sua straordinaria memoria. Ma all'insaputa di Dean, Nixon aveva installato un vero registratore nello Studio Ovale. I ricercatori hanno quindi potuto confrontare il resoconto di conversazioni critiche di Dean con le trascrizioni scritte.

In un articolo del 1981 che analizzava la testimonianza di Dean, lo psicologo Ulric Neisser ha evidenziato nella relazione dell'avvocato alcuni evidenti errori e reinterpretazioni delle conversazioni, nonché la difficoltà di definire la verità e l'esattezza. Nel suo articolo, Neisser ha fatto una distinzione tra memoria semantica ed episodica. Dean aveva più o meno ragione nel ricordare l'essenza generale delle sue conversazioni con Nixon – e la natura dell'insabbiamento del Watergate – anche se aveva esattamente torto sui dettagli di episodi particolari.

Si potrebbe sostenere che i modelli linguistici di grandi dimensioni fanno il contrario: dati tutti i dati che ingeriscono, dovrebbero avere una buona memoria episodica (anche se con input spazzatura possono generare output spazzatura). Ma hanno ancora una scarsa memoria semantica. Anche se un LLM probabilmente riassumerebbe le registrazioni dello Studio Ovale in modo più fedele di quanto Dean ricordò le conversazioni mesi dopo, non avrebbe alcuna comprensione contestuale del significato di quel contenuto.

I ricercatori stanno lavorando su modi per migliorare ulteriormente la memoria episodica dei modelli di intelligenza artificiale generativa e ridurre le allucinazioni. Un recente articolo dei ricercatori di Google DeepMind ha proposto una nuova metodologia chiamata Safe: valutatore di fattualità potenziato dalla ricerca. Le risposte generate dal modello vengono suddivise in frasi costitutive e confrontate con la Ricerca Google per verificarne la fattualità o la correttezza fattuale. Il documento sostiene che questo sistema sperimentale supera gli annotatori umani in termini di accuratezza ed è più di 20 volte più economico.

“Nei prossimi anni saremo in grado di verificare i risultati di grandi modelli linguistici con una buona precisione. Penso che sia piuttosto utile”, mi dice Quoc Le, uno degli autori dello studio. Le allucinazioni sono sia una caratteristica dei LLM da accogliere con favore quando si tratta di creatività, sia un bug da sopprimere quando si tratta di fattualità, dice.

Nel frattempo, gli LLM possono ancora confondere creatività e fattualità. Ad esempio, quando ho chiesto al copilota di Microsoft Bing di dirmi il record mondiale per aver attraversato la Manica a piedi, ha risposto con sicurezza: “Il record mondiale per aver attraversato la Manica interamente a piedi è detenuto dal tedesco Christof Wandratsch, che ha completato la traversata in 14 ore e 51 minuti il ​​14 agosto 2020.” Facilmente, ha anche fornito una citazione per questo fatto. Sfortunatamente, il riferimento si è rivelato essere un articolo pubblicato l'anno scorso evidenziando le allucinazioni generate da ChatGPT.

Non dovremmo concentrarci solo su come vengono creati i contenuti, ma anche su come arrivano, secondo Maria Schnell, responsabile linguistico di RWS, che fornisce servizi di traduzione e testo abilitati alla tecnologia a più di 8.000 clienti in 548 combinazioni linguistiche. In un mondo in cui i contenuti sono sempre più economici e onnipresenti, diventerà ancora più importante adattare le informazioni a un pubblico specifico in un formato, una lingua e un contesto culturale che comprendano e che richieda un tocco umano.

“La precisione è relativamente facile da automatizzare. La rilevanza non è scontata”, afferma Schnell. “Dobbiamo pensare a come vengono ricevuti i contenuti ed è qui che l’intelligenza artificiale fatica”.

Almeno per il momento, gli esseri umani e le macchine possono collaborare fruttuosamente per amplificare le loro diverse capacità e minimizzare i rispettivi difetti.

[email protected]