Questo è il testo della puntata del 16 dicembre 2024 del podcast Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto. Il testo include anche i link alle fonti di questa puntata.
Le puntate del Disinformatico sono ascoltabili anche tramite iTunes, YouTube Music, Spotify e feed RSS.
Il 9 dicembre scorso OpenAI, l’azienda che ha creato ChatGPT, ha rilasciato al pubblico Sora, un generatore di video basato sull’intelligenza artificiale, che era stato presentato a febbraio senza però renderlo pubblicamente disponibile. Con Sora, si descrive a parole la scena che si desidera, e il software produce il video corrispondente, in alta definizione.
Gli spezzoni dimostrativi sono straordinariamente realistici, e Sora a prima vista sembra essere un altro prodotto vincente e rivoluzionario di OpenAI, ma il giorno dopo il suo debutto ha iniziato a circolare in modo virale sui social network [Bluesky; X] un video, realizzato con Sora da un utente, che è così profondamente sbagliato e grottesco che diventa comico. Per qualche strano motivo, Sora sa generare di tutto, dai cani che corrono e nuotano alle persone che ascoltano musica ai paesaggi tridimensionali, ma è totalmente incapace di generare un video di una ginnasta che fa esercizi a corpo libero.
here's a Sora generated video of gymnastics
— Peter Labuza (@labuzamovies.bsky.social) 11 dicembre 2024 alle ore 18:35
[image or embed]
Il video diventato virale mostra appunto quella che dovrebbe essere una atleta che compie una serie di movimenti ginnici ma invece diventa una sorta di frenetica ameba fluttuante dal cui corpo spuntano continuamente arti a caso e le cui braccia diventano gambe e viceversa; dopo qualche secondo la testa le si stacca dal corpo e poi si ricongiunge. E non è l’unico video del suo genere.
Attempt 2.
— Deedy (@deedydas) December 10, 2024
2/4 pic.twitter.com/YuhQLLdj8d
Attempt 3
— Deedy (@deedydas) December 10, 2024
3/4 pic.twitter.com/sdJ6mKhbJh
Attempt 4
— Deedy (@deedydas) December 10, 2024
4/4 pic.twitter.com/GzBtUTuspm
Un risultato decisamente imbarazzante per OpenAI, ben diverso dai video dimostrativi così curati presentati dall’azienda. Un risultato che rivela una delle debolezze fondamentali delle intelligenze artificiali generative attuali e mette in luce il “trucco” sorprendentemente semplice usato da questi software per sembrare intelligenti.
Questa è la storia di quel trucco, da conoscere per capire i limiti dell’intelligenza artificiale ed evitare di adoperarla in modo sbagliato e pagare abbonamenti costosi ma potenzialmente inutili.
Benvenuti alla puntata del 16 dicembre 2024 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.
[SIGLA di apertura]
Dieci mesi dopo il suo annuncio iniziale, OpenAI ha reso disponibile al pubblico il generatore di video Sora basato sull’intelligenza artificiale. Dandogli una descrizione, o prompt, Sora produce un video che può durare fino a venti secondi e rispecchia fedelmente la descrizione fornita.
Sora è la naturale evoluzione delle intelligenze artificiali generative: nel giro di pochi anni, dalla semplice produzione di testi siamo passati alla generazione di immagini, ormai diventate fotorealistiche, sempre partendo da un prompt testuale, e ora arrivano i video generati.
OpenAI non è l’unica azienda che ha presentato intelligenze artificiali che generano video: lo hanno già fatto Google, Runway, Kling e Minimax, giusto per fare qualche nome. Ma Sora sembrava essere molto superiore alla concorrenza, perlomeno fino al momento in cui ha iniziato a circolare il video della ginnasta ameboide.
Va detto che tutti i prodotti attuali di generazione di video hanno gli stessi problemi: spesso producono videoclip mostruosi e deformi, e tocca generarne tanti per ottenerne uno buono. Ma come mai il prodotto di punta di un’azienda leader nel settore fallisce miseramente proprio con la ginnastica artistica?
Per capirlo bisogna ragionare sul modo in cui lavorano le intelligenze artificiali: vengono addestrate fornendo loro un numero enorme di testi, foto o video di esempio di vario genere. Le foto e i video vengono accompagnati da una dettagliata descrizione testuale, una sorta di etichettatura. In questa fase di addestramento, l’intelligenza artificiale crea delle associazioni statistiche fra le parole e le immagini. Quando poi le viene chiesto di creare un testo, un’immagine o un video, attinge a questo vastissimo catalogo di associazioni e lo usa per il suo trucco fondamentale: calcolare il dato successivo più probabile.
Nel caso della generazione di testi, l’intelligenza artificiale inizia a scegliere una prima parola o sequenza di parole, basata sulla descrizione iniziale, e poi non fa altro che mettere in fila le parole statisticamente più probabili per costruire i propri testi. Nelle risposte di ChatGPT, per capirci, non c’è nessuna cognizione o intelligenza: quello che scrive è in sostanza la sequenza di parole più probabile. Sto semplificando, ma il trucco di base è davvero questo.
Lo ha detto chiaramente Sam Altman, il CEO di OpenAI, in una dichiarazione resa davanti a un comitato del Senato statunitense nel 2023:
La generazione attuale di modelli di intelligenza artificiale – dice – è costituita da sistemi di predizione statistica su vasta scala: quando un modello riceve la richiesta di una persona, cerca di prevedere una risposta probabile. Questi modelli operano in maniera simile al completamento automatico sugli smartphone […] ma a una scala molto più ampia e complessa […] – dice sempre Altman – Gli strumenti di intelligenza artificiale sono inoltre in grado di imparare i rapporti statistici fra immagini e descrizioni testuale e di generare nuove immagini basate su input in linguaggio naturale.
[fonte, pag. 2]
In altre parole, ChatGPT sembra intelligente perché prevede le parole o frasi più probabili dopo quelle immesse dall’utente. Nel caso dei video, un’intelligenza artificiale calcola l’aspetto più probabile del fotogramma successivo a quello corrente, basandosi sull’immenso repertorio di video che ha acquisito durante l’addestramento. Tutto qui. Non sa nulla di ombre o forme o di come si muovono gli oggetti o le persone (o, in questo caso, gli arti delle ginnaste): sta solo manipolando pixel e probabilità. Sora affina questa tecnica tenendo conto di numerosi fotogrammi alla volta, ma il principio resta quello.
Ed è per questo che va in crisi con la ginnastica.
Come spiega Beni Edwards su Ars Technica, i movimenti rapidi degli arti, tipici della ginnastica a corpo libero, rendono particolarmente difficile prevedere l’aspetto corretto del fotogramma successivo usando le tecniche attuali dell’intelligenza artificiale. E così Sora genera, in questo caso, un collage incoerente di frammenti dei video di ginnastica a corpo libero che ha acquisito durante l‘addestramento, perché non sa quale sia l’ordine giusto nel quale assemblarli. E non lo sa perché attinge a medie statistiche basate su movimenti del corpo molto differenti tra loro e calcolate su una quantità modesta di video di ginnastica a corpo libero.
Non è un problema limitato alla ginnastica artistica: in generale, se il tipo di video chiesto dall’utente è poco presente nell’insieme di dati usato per l’addestramento, l’intelligenza artificiale è costretta a inventarsi i fotogrammi, creando così movimenti mostruosi e arti supplementari che sono l’equivalente video delle cosiddette “allucinazioni” tipiche delle intelligenze artificiali che generano testo.
Sora, in questo senso, è nonostante tutto un passo avanti: alcuni generatori di video concorrenti usciti nei mesi scorsi facevano addirittura svanire le atlete a mezz’aria o le inglobavano nei tappeti o negli attrezzi, in una sorta di versione IA del terrificante morphing del robot T-1000 alla fine di Terminator 2: Il giorno del giudizio.
Gymnastics is the Turing test of video generation models pic.twitter.com/cOhmUJjI2m
— Deedy (@deedydas) July 2, 2024
Questo suggerisce una possibile soluzione al problema: aumentare la quantità e la varietà di video dati in pasto all’intelligenza artificiale per addestrarla, ed etichettare con molta precisione i contenuti di quei video. Ma non è facile, perché quasi tutti i video sono soggetti al copyright. Soprattutto quelli degli eventi sportivi, e quindi non sono liberamente utilizzabili per l’addestramento.
Sora fa sorridere con i suoi video mostruosamente sbagliati in questo campo, ma non vuol dire che sia da buttare: è comunque una tappa molto importante verso la generazione di video di qualità. Se i video che avete bisogno di generare rappresentano scene comuni, come una persona che cammina o gesticola oppure un paesaggio, Sora fa piuttosto bene il proprio mestiere e consente anche di integrare oggetti o immagini preesistenti nei video generati.
Al momento, però, non è disponibile in Europa, salvo ricorrere a VPN o soluzioni analoghe, e accedere alle funzioni di generazione video costa: gli abbonati che pagano 20 dollari al mese a ChatGPT possono creare fino a 50 video al mese, in bassa qualità [480p] oppure possono crearne di meno ma a qualità maggiore. Gli abbonati Pro, che pagano ben 200 dollari al mese, possono chiedere risoluzioni maggiori e durate più lunghe dei video generati.
Se volete farvi un’idea delle attuali possibilità creative di Sora, su Vimeo trovate per esempio The Pulse Within, un corto creato interamente usando spezzoni video generati con questo software, e sul sito di Sora, Sora.com, potete sfogliare un ricco catalogo di video dimostrativi.
Siamo insomma ancora lontani dai film creati interamente con l’intelligenza artificiale, ma rispetto a quello che si poteva fare un anno fa, i progressi sono stati enormi. Ora si tratta di decidere come usare questi nuovi strumenti e le loro nuove possibilità creative.
Infatti il rapidissimo miglioramento della qualità di questi software e la loro disponibilità di massa significano anche che diventa più facile e accessibile produrre deepfake iperrealistici o, purtroppo, anche contenuti di abuso su adulti e minori. Sora ha già implementato filtri che dovrebbero impedire la generazione di questo tipo di video, e i contenuti prodotti con Sora hanno delle caratteristiche tecniche che aiutano a verificare se un video è sintetico oppure no, ma questo è un settore nel quale la gara fra chi mette paletti e chi li vuole scardinare non conosce pause. Nel frattempo, noi comuni utenti possiamo solo restare vigili e consapevoli che ormai non ci si può più fidare neppure dei video. A meno che, per ora, siano video di ginnastica artistica.
Fonti aggiuntive
Ten months after first tease, OpenAI launches Sora video generation publicly, Ars Technica