Dal testo alla voce: l’IA generativa compie un altro passo avanti
Non solo sottotitoli in tempo reale. YouTube vuole rendere più facile il doppiaggio dei video in altre lingue sfruttando l’IA generativa. Lo ha annunciato giovedì all’evento VidCon con la decisione di assumere il team di Aloud, un servizio di doppiaggio basato su intelligenza artificiale proveniente dall’incubatore Area 120 di Google.
Ma esattamente come funziona questo doppiaggio “IA based”? Aloud trascrive innanzitutto il video, fornendo una trascrizione che si può rileggere e modificare. A questo punto traduce e produce il doppiaggio (nel video sottostante trovate tutti i dettagli).
YouTube sta già testando lo strumento con “centinaia” di creatori, come ha precisato Amjad Hanif di YouTube in una dichiarazione a The Verge. Hanif afferma che Aloud supporta attualmente “poche” lingue, ma che ce ne sono altre in arrivo; secondo la portavoce Jessica Gibby, Aloud è attualmente disponibile in inglese, spagnolo e portoghese.
Tuttavia, anche con un numero limitato di lingue, Aloud potrebbe essere uno strumento utile in quanto un numero crescente di creatori aggiunge ai propri video dei doppiaggi multilingue. Se volete ascoltare un esempio dei risultati di Aloud, ecco la traccia doppiata in spagnolo di questo video del canale Amoeba Sisters (cliccate sull’icona dell’ingranaggio e poi su Traccia audio).
In futuro, YouTube “lavorerà per far sì che le tracce audio tradotte suonino come la voce del creatore, con una maggiore espressività e con una precisa sincronizzazione delle labbra”, spiega Hanif. Secondo Gibby, queste funzioni sono previste per il 2024.
YouTube non è però l’unica big tech a essere impegnata in questo campo. Meta ha infatti annunciato nei giorni scorsi Voicebox, un modello di intelligenza artificiale in grado di eseguire attraverso l’apprendimento nel contesto attività di generazione del parlato (come l’editing, il campionamento e la stilizzazione) per le quali non è stato specificamente addestrato.
Voicebox può produrre parlato in sei lingue ed è in grado di produrre clip audio di alta qualità e di modificare l’audio preregistrato, ad esempio eliminando i clacson delle auto o l’abbaiare di un cane, il tutto preservando il contenuto e lo stile dell’audio. In futuro, i modelli di IA generativa multiuso come Voicebox potrebbero fornire voci naturali agli assistenti virtuali e ai personaggi nel metaverso, consentire alle persone ipovedenti di ascoltare i messaggi scritti degli amici letti dall’IA con la loro voce, dare ai creatori nuovi strumenti per creare e modificare facilmente le tracce audio dei video e molto altro ancora.
La versatilità di Voicebox consente di svolgere diverse attività, tra cui:
- Sintesi text-to-speech nel contesto: Utilizzando un campione audio di soli due secondi, Voicebox è in grado di adattarsi allo stile audio e di utilizzarlo per la generazione di testo in voce.
- Editing del parlato e riduzione del rumore: Voicebox può ricreare una porzione di discorso interrotta dal rumore o sostituire le parole pronunciate male senza dover registrare nuovamente un intero discorso. Ad esempio, si può identificare un segmento di un discorso interrotto dall’abbaiare di un cane, ritagliarlo e chiedere a Voicebox di rigenerare quel segmento, come una sorta di gomma da cancellare per l’editing audio.
- Trasferimento dello stile da una lingua all’altra: Quando si riceve un campione del discorso di qualcuno e un brano di testo in inglese, francese, tedesco, spagnolo, polacco o portoghese, Voicebox può produrre una lettura del testo in una qualsiasi di queste lingue, anche se il campione del discorso e il testo sono in lingue diverse. Questa funzionalità potrebbe essere utilizzata in futuro per aiutare le persone a comunicare in modo naturale e autentico anche se non parlano la stessa lingua.
- Campionamento di discorsi diversi: Avendo imparato da dati diversi, Voicebox è in grado di generare un parlato più rappresentativo di come le persone parlano nel mondo reale e nelle sei lingue sopra elencate.