Sab. Mag 18th, 2024
Quanto è valido il modello video Sora di OpenAI e trasformerà i posti di lavoro?

OpenAI ha presentato Sora, il suo modello di generazione video di intelligenza artificiale, ai dirigenti del settore dei media nelle ultime settimane per suscitare entusiasmo e alleviare le preoccupazioni sul potenziale della tecnologia di rivoluzionare settori specifici.

Il MagicTech voleva mettere alla prova Sora e i suoi rivali.

Abbiamo chiesto ai dirigenti del settore pubblicitario, dell'animazione e del settore immobiliare di scrivere suggerimenti per generare video che potrebbero utilizzare nel loro lavoro. Abbiamo poi chiesto loro il loro punto di vista su come tale tecnologia potrebbe trasformare il loro lavoro in futuro.

Sora deve ancora essere rilasciato al pubblico, quindi OpenAI ha modificato alcune istruzioni prima di inviare le clip risultanti. Su Runway e Pika, i suggerimenti iniziali e quelli ottimizzati sono stati inseriti utilizzando i modelli più avanzati di entrambe le società. Ecco i risultati.


Charlotte Bunyan, co-fondatrice di Arq, consulente pubblicitaria del marchio

La versione rivista di OpenAI della richiesta di Bunyan di creare una campagna per un “noto supermercato di High Street”:

I video di Pike e Runway basati sul suggerimento originale di Bunyan:

“La presentazione delle persone da parte di Sora era coerente, mentre la visualizzazione effettiva del fantastico parco giochi era resa fedelmente in termini di descrizioni dei diversi elementi, che altri non riuscivano a generare.

“È interessante che OpenAI abbia cambiato i termini 'bambini' in 'persone', e mi piacerebbe sapere perché. È una questione di salvaguardia? È più difficile rappresentare i bambini perché non sono stati formati su così tanti? Hanno optato per “persone” piuttosto che per un uomo caucasico con barba e capelli castani, che è ciò che Sora ha effettivamente generato, il che solleva dubbi sui pregiudizi.

“Pika si sentiva surreale, come se fossi in un film stravagante. La versione per bambini è molto migliore di quella Lega dei gentiluomini surreale dell'iterazione per adulti, ma il resto dell'ambiente manca di dettagli dal prompt. Ho una certa predilezione per la vivacità di [Pika’s children’s] versione, poiché trasmette un senso di gioia e felicità più forte di qualsiasi altra.

“La passerella era decisamente nel mezzo. Sicuramente nella versione per adulti c'erano meno glitch, ma mancava la rappresentazione degli elementi del parco giochi.

“Potenzialmente potrei usare il video di Sora come assaggio di qualcosa che potremmo dare vita in un’esperienza virtuale. Dimostrerebbe la giocosità del cibo. Tuttavia, potrebbe essere necessario aggiungere un livello umano al contenuto utilizzando gli strumenti di modifica.

“Questi strumenti accelereranno il modo in cui comunichiamo le idee creative e le renderanno più tangibili. Ad esempio, nelle prime fasi di presentazione di un concetto a un marchio, ciò renderebbe molto più facile per i clienti capire come potrebbe apparire o come funzionerebbe.

“Il mio suggerimento contiene concetti creativi astratti che sono più difficili per questi strumenti. Spesso, nel mondo della creatività, si cerca di creare qualcosa che prima non esisteva. So che c’è molta preoccupazione e forse negatività riguardo al fatto che l’intelligenza artificiale si impossessi di tutti i nostri posti di lavoro, ma penso che dovremmo considerare in che modo l’intelligenza artificiale renderà il nostro lavoro più semplice e allevierà alcuni oneri”.


Alex Williams, animatore i cui crediti includono “Chi ha incastrato Roger Rabbit?” e “Il Re Leone”

Video generati dal prompt rivisto di OpenAI:

“Ha quella leggera qualità di morphy che ha il lavoro generato dall'intelligenza artificiale, che non credo lo renda ancora pronto per il cliente, ma è qualcosa che verrà appianato.

“Ognuno è straordinario in termini di ciò che fa, ma ognuno [has] errori evidenti. . . come le teste che cambiano forma e i fenicotteri che si fondono con altri fenicotteri: non funziona ancora.

“Non è riuscito a produrre un cortometraggio con un inizio, una parte centrale e una fine, quindi non ha fatto quello che speravo. D'altra parte, ciò che fa in termini di animazione è davvero impressionante.

“Da quando ho iniziato a lavorare nell'animazione negli anni '80, alcuni progressi tecnologici molto significativi hanno cambiato molto il mezzo. Non c’è dubbio che questo sia il cambiamento più grande che abbia mai visto nella mia carriera.

“Farei un paragone con il passaggio dall’animazione 2D a quella 3D, avvenuto alla fine degli anni ’90 quando Storia del giocattolo venne fuori. All'inizio c'era molta resistenza nella comunità dell'animazione disegnata a mano a questi cambiamenti, me compreso.

“Mi ci sono voluti un paio d’anni per capire che dovevo abbracciare questo cambiamento. Abbiamo combattuto tutti insieme per un po', ma è diventato il grande driver del botteghino. Come settore dobbiamo abbracciare la tecnologia perché non vogliamo mai stare dalla parte sbagliata”.


Ashley Shakibai, direttore di produzione presso gli agenti immobiliari commerciali OBI Property

Video generati dalla richiesta di video promozionale di un edificio commerciale a Manchester:

“Sora ha fatto un lavoro ragionevole all’inizio. La transizione sarà sempre complicata e ha lottato per questo. Ma penso che il fotorealismo alla fine dello scatto sia stato piuttosto piacevole e sorprendente.

“Tecnicamente, l'indicazione era che le persone camminassero nell'edificio, ma ciò non è stato mostrato e c'erano molti altri elementi che non sono stati raggiunti.

“Tutto ciò che Pika ha ricavato dal mio suggerimento è una 'giornata di sole'. Ci ha fornito alcuni razzi e un paio di edifici, ma non riesci a distinguere le persone.

“Ho dovuto ridere quando ho visto questo Runway. C'è un po' più di fotorealismo, ma le persone camminano avanti e poi indietro, quindi non è certamente una scena credibile.

“Come professionista del settore, la mia aspettativa è la perfezione. Cerco video di qualità realistica e l'intelligenza artificiale probabilmente non ci arriverà mai del tutto.

“Alla fine del video di Sora, la coppia sta conversando in un bar e sembra che si stiano divertendo. Sarebbe una possibilità che utilizzeremmo per vendere uno spazio di proprietà commerciale come servizio nelle vicinanze.

“Alla fine raggiungeremo un punto in cui questo diventerà uno strumento incredibilmente potente per i creatori, eliminando inevitabilmente l’uso di altri strumenti. Sora sfiderà seriamente i siti web azionari e il ruolo degli attori, che usiamo entrambi ora.

“Devi prestare molta attenzione quando aggiungi immagini generate al computer. Se non ha uno scopo, se non è credibile, può distrarre troppo. È davvero in fase di test”.