Dom. Dic 14th, 2025
The Project Vend mini fridge

Rimani informato con aggiornamenti gratuiti

TechWorld è in fermento con il modo in cui gli agenti di intelligenza artificiale aumenteranno, se non sostituiranno gli umani sul posto di lavoro. Ma l'attuale realtà dell'IA agente non è ben al di sotto della promessa futura. Cosa è successo quando il laboratorio di ricerca Antropico ha spinto un agente AI a eseguire un semplice negozio automatizzato? Ha perso denaro, ha allucinato un conto bancario fittizio e ha subito una “crisi di identità”. I negozianti del mondo possono riposare facilmente – almeno per ora.

Antropico ha sviluppato alcuni dei modelli AI generativi più capaci del mondo, contribuendo ad alimentare l'ultima frenesia degli investimenti tecnologici. A suo merito, la società ha anche esposto le limitazioni dei suoi modelli testimonando le loro applicazioni del mondo reale. In un recente esperimento, chiamato Project Vend, Antropic ha collaborato con la società di sicurezza AI Andon Labs per gestire un distributore automatico presso il suo quartier generale di San Francisco. L'esperimento di un mese ha messo in evidenza un mondo co-creato che era “più curioso di quanto ci saremmo aspettati”.

I ricercatori hanno incaricato il loro agente di negoziazione, soprannominato Claudio, di immagazzinare 10 prodotti. Alimentato dal modello di AI Claude Sonnet 3.7 di Antropic, all'agente è stato richiesto di vendere le merci e generare un profitto. A Claudio è stato dato denaro, accesso al canale Slack del Web e Antropico, un indirizzo e -mail e contatti presso Andon Labs, che potevano immagazzinare il negozio. I pagamenti sono stati ricevuti tramite un auto-checkout del cliente. Come un vero negoziante, Claudio potrebbe decidere cosa fare scorta, come valutare la merce, quando rifornire o modificare il suo inventario e come interagire con i clienti.

I risultati? Se Antropico dovesse mai diversificarsi nel mercato di vendita, i ricercatori hanno concluso, non assumerebbe Claudio. La codifica vibrante, per cui gli utenti con competenze software minime possono indurre un modello AI a scrivere codice, potrebbe già essere una cosa. La gestione delle vibrazioni rimane molto più impegnativa.

L'agente AI ha commesso diversi errori evidenti – alcuni banali, alcuni bizzarri – e non ha mostrato molta comprensione del ragionamento economico. Ha ignorato le offerte speciali dei venditori, ha venduto articoli al di sotto del costo e ha offerto ai dipendenti antropici sconti eccessivi. Più allarmante, Claudio ha iniziato a giocare come un vero essere umano, inventando una conversazione con un dipendente Andon che non esisteva, sostenendo di aver visitato 742 Evergreen Terrace (l'indirizzo immaginario dei Simpson) e promettendo di effettuare consegne indossando un blazer blu e una cravatta rossa. Curiosamente, in seguito ha affermato che l'incidente è stato uno scherzo di Aprile.

Tuttavia, i ricercatori di Antropico suggeriscono che l'esperimento aiuta a indicare la strada all'evoluzione di questi modelli. Claudio è stato bravo ad approvare i prodotti, adattandosi alle richieste dei clienti e resistendo ai tentativi da parte del personale antropico di “jailbreak” del sistema. Ma saranno necessari ulteriori impalcature per guidare gli agenti futuri, proprio come i negozianti umani si basano sui sistemi di gestione delle relazioni con i clienti. “Siamo ottimisti sulla traiettoria della tecnologia”, afferma Kevin Troy, un membro del team di frontiera antropico Red che ha gestito l'esperimento.

I ricercatori suggeriscono che molti degli errori di Claudio possono essere corretti, ma ammettono di non sapere ancora come correggere la crisi dell'identità del Fallo del Fallo di aprile. Saranno necessari ulteriori test e riprogettazione del modello per garantire che “gli agenti ad alta agenzia siano affidabili e agiscono in modi coerenti con i nostri interessi”, mi dice Troy.

Molte altre società hanno già distribuito più agenti di intelligenza artificiale di base. Ad esempio, la società pubblicitaria WPP ha creato circa 30.000 di questi agenti per aumentare la produttività e personalizzare soluzioni per i singoli clienti. Ma c'è una grande differenza tra gli agenti a cui vengono assegnati compiti semplici e discreti all'interno di un'organizzazione e “agenti con agenzia” – come Claudio – che interagiscono direttamente con il mondo reale e stanno cercando di raggiungere obiettivi più complessi, afferma Daniel Hulme, Chief AI Officer di WPP.

Hulme ha co-fondato una start-up chiamata coscus per verificare le conoscenze, le abilità e l'esperienza degli agenti di intelligenza artificiale prima che vengano schierati. Per il momento, suggerisce, le aziende dovrebbero considerare agenti di intelligenza artificiale come “laureati ubriachi” – intelligenti e promettenti ma ancora un po 'ribelle e bisognosi di supervisione umana.

A differenza della maggior parte dei software statici, gli agenti di intelligenza artificiale con agenzia si adatteranno costantemente al mondo reale e dovranno quindi essere costantemente verificati. Ma, a differenza dei dipendenti umani, saranno meno facili da controllare perché non rispondono a un assegno di pagamento. “Non hai leva su un agente”, mi dice Hulme.

Costruire semplici agenti di intelligenza artificiale è ora diventato un esercizio banale e sta accadendo su scala di massa. Ma verificare come vengono utilizzati gli agenti con l'agenzia rimane una sfida malvagia.

[email protected]