Mar. Lug 8th, 2025
I modelli di intelligenza artificiale più grandi sono migliori raccoglitori di titoli? Forse, ma probabilmente no

Sblocca gratuitamente il digest dell'editore

Nel dicembre 2021, Bryan Kelly, responsabile dell'apprendimento automatico presso Quant House AQR Capital Management, mise il suo nome su un documento accademico che suscitò molto scalpore.

La virtù della complessità in restituzione -Co-autore da Kelly con Semyon Malamud e Kangying Zhou-ha scoperto che i modelli complessi di apprendimento automatico erano migliori di quelli semplici a prevedere i prezzi delle azioni e costruire portafogli.

La scoperta è stata un grosso problema perché ha contraddetto uno dei principi guida dell'apprendimento automatico, il compromesso di varianza di pregiudizioche afferma che il potere predittivo dei modelli si indebolisce man mano che crescono oltre un livello ottimale. Dati troppi parametri con cui giocare, un bot tende ad adattarsi eccessivamente alla sua uscita per il rumore casuale nei dati di allenamento.

Ma Kelly e i suoi coautori hanno concluso che, sorprendentemente, più variabili migliorano sempre i rendimenti. La potenza di calcolo disponibile è l'unico limite. Ecco un video di Kelly che spiega alla Wharton School nel 2023 che gli stessi principi che si applicano ai modelli da molti miliardi di parametri che alimentano Chatgpt e Claude Ai si applicano anche all'accuratezza nelle previsioni finanziarie.

Molti accademici odiavano questo documento. Si basa sull'analisi teorica “così stretta da essere praticamente inutile per gli economisti finanziari “, afferma Jonathan Berk della Stanford Business School. La performance dipende da dati sanitari che non sarebbero disponibili nel mondo reale, secondo alcuni Ricercatori dell'Università di Oxford. Daniel Buncic, di Stockholm Business School, afferma che i modelli più grandi testati da Kelly et al Solo superamento Perché i modelli semplici sono “artificialmente” realizzati per sembrare cattivi in ​​due modi non ortodossi.

Questa settimana, Stefan Nagel dell'Università di Chicago si è unito al pila. Il suo documento – Complessità apparentemente virtuosa in cambio previsione – sostiene che il risultato “sbalorditivo” mostrato da Kelly et al. . .

. . . In effetti una media ponderata dei rendimenti passati, con pesi più alti sui periodi i cui vettori predittivi sono molto simili a quello attuale.

Nagel sfida la conclusione centrale del documento secondo cui un bot molto complesso può fare buone previsioni basate su solo un anno di dati sulle prestazioni delle azioni.

La scoperta era radicata in un concetto di intelligenza artificiale noto come doppia discesache afferma che gli algoritmi di apprendimento profondo commettono meno errori quando hanno più parametri variabili rispetto ai punti dati di allenamento. Avere un modello con un numero enorme di parametri significa che può adattarsi perfettamente ai dati di allenamento.

Secondo Kelly et al, questo approccio a blob onnicchiato alla corrispondenza dei pattern è in grado di scegliere i segnali predittivi in ​​dati molto rumorosi, come un singolo anno di negoziazione di azioni statunitensi.

Immondizia, dice Nagel:

Nelle finestre di allenamento brevi, la somiglianza significa semplicemente recency, quindi la previsione si riduce a una media ponderata dei recenti rendimenti, essenzialmente una strategia di slancio.

Fondamentalmente, l'algoritmo non sta consigliando una strategia di slancio perché ha percepito che sarà redditizio. Ha solo una distorsione da recency.

Il bot “fa semplicemente una media dei pochi rendimenti più recenti nella finestra di allenamento, che corrispondono ai vettori predittivi più simili a quello attuale”, afferma Nagel. “Non impara dai dati di addestramento sia se sono presenti slancio o dinamica di inversione; impone meccanicamente una struttura simile a un momento indipendentemente dal processo di ritorno sottostante”.

La sovraperformance mostrata dallo studio del 2021 “riflette quindi il successo storico coincidente del momento a taglio della volatilità, non le informazioni predittive estratte dai dati di addestramento”, conclude.

Stiamo saltando a quantità di dettaglio. Qualsiasi lettore che desideri conoscere i meccanici del ridimensionamento del kernel con le caratteristiche casuali di Fourier sarebbe meglio servito da un autore che sa di cosa stanno parlando. Il nostro interesse principale è in AQR, il quant da $ 136 miliardi di management, che indossa le sue radici accademiche con orgoglio.

Kelly agisce come Frontman di AQR per un migliore investimento attraverso l'apprendimento automatico: La sua documento “virtù della complessità” è Sul sito web AQRinsieme ad un po 'di più Commento del circuito Dal suo capo Cliff Asness sul valore dei segnali generati dalla macchina.

Il selvaggio di Kelly et al – anche da un professore all'Università di Chicago, sia alma mater e di Asness, non è un bell'aspetto. Ma dal momento che le strategie di slancio semplice sono state storicamente tra le cose che AQR fa meglio, forse questa demistificazione dell'hype AI accademico non è una cosa negativa per gli investitori.

Aggiornamento (16:00 BST):

Un portavoce di AQR ci dice via e -mail:

I documenti a cui si fa riferimento non minano in alcun modo le affermazioni teoriche o empiriche in KMZ (Kelly, Malamud e Zhou). Nessuno tenta una rigorosa controversia della teoria in KMZ, che è il suo obiettivo principale. Questi articoli si basano su argomenti empirici secondo cui Nitpick ristretta casi speciali dei risultati empirici in KMZ e ignorano la montagna di prove nella loro ricerca di apprendimento automatico finanziario e altri.

Il dominio empirico di grandi modelli è stato dimostrato in ogni area di ML dalla ricerca di ML Academics dei pesi massimi, che è stata condotta in tutte le scienze naturali e applicate. La modellazione del linguaggio e delle immagini sono applicazioni più note che esemplificano il successo dei modelli di grandi dimensioni. Pensiamo davvero che la finanza, l'economia o altre scienze sociali siano speciali? Il lavoro di Kelly e Team mostra il contrario.