Svolta per l’AI generativa che genera video. OpenAI ha aperto l’accesso a Sora agli utenti che pagano l’abbonamento mentre Google ha annunciato Veo 2, in questi stessi giorni.
L’Europa è al momento tagliata fuori dall’accesso a queste piattaforme, nel caso di Google l’accesso è permesso solo dagli Stati Uniti, mentre OpenAI ha per ora ristretto l’accesso dall’Europa sicuramente per i continui attriti in materia di privacy.
Se si dispone di un account è però possibile utilizzare una VPN, come ad esempio quella del browser Opera, per accedere da un IP americano ed usare il sistema.
La nostra prova di Sora
L’interfaccia di Sora è molto essenziale e al login mostra i video creati dagli utenti (interfaccia ripresa anche da Veo 2). Una volta autenticati con un account con abbonamento Plus o Pro si ha accesso all’interfaccia per la generazione video.
L’interfaccia è essenziale, si vedono i video generati recentemente, vi sono alcune funzioni di organizzazione dei propri contenuti e in basso troviamo il pannello per la generazione di nuovi video. Oltre alla possibilità di digitare il prompt possiamo scegliere:
- il formato del video (16:9, quadrato o 9:16)
- la risoluzione (480p, 720p, 1080p quest’ultima limitata a chi ha l’abbonamento pro)
- la durata (5s, 10s, 15s, 20s)
- il numero di varianti del video da generare (1v, 2v, o 4v)
- i preset, una sorta di prompt di contesto che indica gli effetti che si desiderano nel video generato (per esempio nel preset Cardboard & Papercraft troviamo “Content Transformation: All characters, objects, and environments are made of inflated balloons, with visible seams and a bouncy quality”)
- la possibilità di aggiungere immagini o video da utilizzare come input al modello
L’interfaccia Storyboard
Il modo più semplice di usare Sora è quello di impostare i parametri e scrivere nel prompt cliccando sulla freccia per avviare la generazione:
La richiesta viene messa in coda e, soprattutto per i video a bassa risoluzione, dopo meno di un minuto si può vedere il risultato.
In basso abbiamo le opzioni per modificare il video generato:
- Edit prompt – consente di modificare il prompt
- View story – consente di visualizzare la story board del video e modificarla
- Re-cut – consente di tagliare il video e modificarlo in un segmento
- Remix – consente di indicare elementi da sostituire dal video corrente, il video sarà comunque rigenerato
- Blend – permette di fondere due video secondo politiche indicate nelle opzioni di fusione
- Loop – consente di generare una variante del video che possa essere visualizzata ripetutamente
In generale la qualità dei video generati è buona ma ci si rende conto subito che il mero prompt è un po’ limitante nella qualità dei risultati e che è necessario sforzarsi nell’apprendere le varie funzioni per avere maggior controllo sull’output.
Sora di OpenAI cos’è e come funziona
Sora di OpenAI è un avanzato modello di generazione video basato su testo. Ha molte caratteristiche e capacità innovative.
Funzionamento
Sora opera convertendo descrizioni testuali in video di alta qualità. Gli utenti inseriscono un prompt dettagliato, e il modello genera un video che aderisce alle istruzioni.
Caratteristiche principali
- Generazione di Scene Complesse: Sora può creare scene con multiple personaggi, tipi di movimento specifici e dettagli accurati di soggetti e sfondi.
- Durata e Risoluzione: I video generati possono essere fino a 1 minuto di lunghezza e mantengono una buona qualità visiva.
- Animazione di Immagini Statiche: Sora può animare immagini statiche e estendere o completare video esistenti.
- Natural Language Processing (NLP): Il modello è avanzato nel processamento del linguaggio naturale, permettendo una comprensione precisa delle istruzioni testuali.
Tecnologia di Sora
Sora utilizza una architettura di trasformatori simile ai modelli GPT e la tecnica di recaptioning da DALL·E 3.
Applicazioni
Il modello è versatile e può essere utilizzato in vari settori, come marketing, educazione e creazione di contenuti, offrendo opzioni di personalizzazione e supporto multilingue.
Innanzitutto vediamo come appare l’editor dello storyboard: la timeline del video ha alcuni keyframe che invece di essere immagini sono sostanzialmente dei prompt che descrivono cosa deve avvenire nella scena a partire da quel momento. Si nota subito come il prompt che abbiamo scritto in Italiano sia stato usato per generare i testi dei vari keyframe che spesso sono però in inglese. Si possono introdurre nuovi key frame con ulteriori descrizioni oppure spostarli sulla timeline per gestire la durata delle varie sequenze.
Non sempre le richieste si traducono nel risultato atteso, è bene quindi fare un po’ di esperimenti prima di alzare la risoluzione del risultato. Conviene anche generare più video così che si possano usare per fonderli in un nuovo video consentendo vari cambi di scena ed effetti per ottenere risultati decisamente migliori.
L’applicazione del blend ai video generati sulla nave da crociera a Venezia ha prodotto un interessante sequenza (usando il preset Cardboard).
Come spesso avviene per i prompt usati per generare immagini anche con Sora può valere la pena di chiedere una mano ad un altro LLM. GPT-4o fa un ottimo lavoro a partire da un breve prompt in italiano a generarne uno lungo in inglese (che sembra funzionare meglio con Sora) che aggiunge molti dettagli che sarebbe difficile introdurre a mano.
Animare un’immagine
Si può partire da un video o da una foto per influenzare la generazione. Ho provato ad animare un’immagine generata qualche mese fa con l’aiuto di DALL-E per rappresentare un quadrante in cui spesso il personale ICT si ritrova: tutte le energie se ne vanno per assicurare che il sistema sia in funzione non riuscendo però a trovare le risorse per farlo evolvere o introdurre nuovi servizi.
L’animazione del criceto è stata decisamente sorprendente, e la possibilità di creare un’animazione che si ripete ha consentito di catturare l’idea di un lavoro senza fine.
Sora: il giudizio con la nostra esperienza
Un’affermazione che Sam Altman ripete nelle presentazioni di Sora è quest’idea che il modello abbia appreso il funzionamento della fisica, e non si tratta quindi solo di generare video. L’impressione che si ha è che piuttosto il modello abbia appreso come evolvono i pixel di una camera che riprende il mondo, aspetto comunque di tutto rispetto.
Sora è una piacevole novità, e non solo il modello, anche la user experience è assolutamente notevole. Se però uno pensa di divenire regista grazie all’AI si scopre rapidamente che non è proprio così, tradurre in risultati piacevoli le proprie idee rimane un compito difficile, ma sicuramente l’AI può aiutare a procedere senza essere un esperto di applicazioni ed editor video.
Creare sequenze più lunghe di 20 secondi può richiedere più lavoro: una cosa non sempre banale è mantenere una coerenza visiva tra video generati successivamente, una tecnica che però aiuta molto è quella di fornire il video precedente come input per la generazione del successivo usando la funzione Remix. In questo modo il modello mantiene una certa coerenza narrativa altrimenti sostanzialmente impossibile.
Per essere una prima versione penso che Sora sia decisamente notevole, ma l’impressione che si ha è che sia solo l’era preistorica di qualcosa che in pochi anni cambierà molte cose. Per ora dispiace che tutte queste funzioni siano inaccessibili dall’Europa e non possiamo che auspicare che si trovi un giusto equilibrio tra privacy diritti e innovazione tecnologica.
Google Veo 2
Google Veo 2 rappresenta un significativo avanzamento nella tecnologia di generazione video attraverso l’intelligenza artificiale, presentato per la prima volta al Google I/O 2024.
Caratteristiche principali
- Realismo e Fisica: Veo 2 migliora notevolmente la comprensione della fisica del mondo reale e dei movimenti umani, aumentando il livello di realismo e dettaglio dei video generati.
- Risoluzione e Durata: Il modello può generare video in risoluzione fino a 4K e con una durata massima di 2 minuti, superando i limiti dei modelli concorrenti come Sora di OpenAI, che è limitato a 20 secondi e Full HD.
Prompt e stili cinematografici
- Gli utenti possono specificare prompt dettagliati per ottenere stili cinematografici precisi, come “shallow depth of field” per sfocare lo sfondo, l’utilizzo di lenti specifiche come “18mm” o “35mm” per angoli ampi o riprese ravvicinate, e altre indicazioni tecniche come inquadrature e effetti cinematografici.
Riduzione delle allucinazioni e watermark
- Veo 2 riduce significativamente le allucinazioni visive, problemi comuni nei precedenti modelli di generazione video. Inoltre, include un watermark SynthID invisibile per identificare i contenuti generati dall’AI e combattere la disinformazione.
Funzionamento e applicazioni
- Il modello utilizza un algoritmo avanzato di generazione video che converte istruzioni testuali in contenuti audiovisivi. Gli utenti devono fornire descrizioni dettagliate degli oggetti, soggetti, azioni, interazioni, illuminazione e atmosfera ambientale per ottenere risultati precisi[2][3].
- Veo 2 è particolarmente utile per professionisti e aziende che desiderano produrre contenuti video di alta qualità e durata, adatti per piattaforme professionali e di alta fascia.
Vantaggi competitivi
- Rispetto a Sora di OpenAI, Veo 2 offre una maggiore flessibilità negli input testuali, una risoluzione superiore e una durata più lunga dei video generati, rendendolo un strumento più versatile e potente per la creazione di contenuti video.
Disponibilità
- Veo 2 è attualmente disponibile tramite la piattaforma VideoFX di Google Labs, con accesso gestito attraverso una waitlist. La disponibilità è prevista per essere estesa in futuro.