Piccolo esperimento di voce sintetica con intonazioni decise dall’intelligenza artificiale

Per il podcast settimanale per la RSI preparo sempre un cosiddetto lancio: un breve intervento preregistrato, che viene trasmesso sulla Rete Tre della RSI e serve a presentare i temi della puntata e a fornire le coordinate per scaricarlo. Questa settimana ho provato a generarne due versioni: una naturale, usando la mia voce dal vivo, e una sintetica, basata sulla mia voce clonata a pagamento da ElevenLabs. Eccole.

Riuscite a riconoscere quella sintetica?

Non dovrebbe essere difficile; quello che mi preme far notare, però, è il fatto che la versione sintetica è stata generata partendo da un testo completamente privo di informazioni di intonazione. Molti di questi software di sintesi vocale richiedono che vengano specificati, parola per parola, i toni e altre informazioni, e questo è un lavoro tedioso e lungo.

Il software di ElevenLabs, invece, determina automaticamente le intonazioni da usare, in base al contesto e alla struttura delle frasi: l’unica indicazione che gli ho fornito è il preambolo prima delle virgolette. Eppure notate il modo in cui cambia il tono alle parole “non vi preoccupate”, per esempio. Quello che segue è il testo che gli ho dato in pasto pari pari, scegliendo poi il “ciak” migliore fra i tre o quattro che ho generato per prova:

Paolo parla con voce veloce ed eccitata da disk-jockey radiofonico: “Se qualcuno vi dice che si sta dedicando al dropshipping, ma è stato coinvolto in una sextortion e sta cercando aiuto per un cryptoscam, e non avete la minima idea di cosa stia dicendo, non vi preoccupate: è normale! Sono parole recenti, create per descrivere nuovi fenomeni legati a Internet. Se volete sapere cosa significano o volete approfondirne la conoscenza, c’è una nuova puntata del podcast Il Disinformatico, pronta da scaricare o mettere in coda per l’ascolto, che risponde alle domande degli ascoltatori su trappole e truffe della Rete! Si possono davvero fare soldi con la tecnica di compravendita del “dropshipping”, come sembrano voler fare anche molti minorenni? Qual è la strategia per difendersi dai ricatti basati su immagini esplicite ottenute con l’inganno? C’è qualcosa di vero dietro le agenzie che promettono di recuperare i soldi persi in truffe legate alle criptovalute? Sono Paolo Attivissimo, e vi aspetto presso vu vu vu punto erre esse i punto ci acca slash ildisinformatico e su tutte le principali piattaforme podcast!!”

Nel mio caso, il tempo necessario per generare varie volte la voce sintetica (trovando il modo giusto per farle dire cose come http://www.rsi.ch) è grosso modo lo stesso che ci ho messo a dire il testo dal vivo senza impaperarmi e con l’intonazione che avevo in mente, per cui non si può ancora parlare di risparmio di tempo. Ma ho potuto generare il lancio senza aver bisogno di un microfono e di un ambiente silenzioso, e avrei potuto generarlo anche se fossi stato afono per qualunque motivo. E fra dieci o vent’anni la mia voce sintetica sarà ancora quella di oggi.

Ora immaginate questa tecnica applicata alla lettura di un intero libro per produrre un audiolibro, cosa che normalmente richiede decine di ore di disponibilità di uno speaker o di un attore professionista. O applicata per far parlare chi non c’è più.

ALLERTA SPOILER: La soluzione

Confermo innanzi tutto che non ho rimescolato le due voci: uno dei lanci è interamente sintetico e l’altro è interamente reale. Non ho alterato la mia dizione o recitazione per confondere le acque: ho registrato il parlato esattamente come se lo dovessi usare in radio, e infatti uno dei due lanci è proprio quello che è stato usato per promuovere il podcast sulla Rete Tre della RSI. Aggiungo inoltre che da sempre rimuovo dal mio parlato quasi tutte le pause per prendere fiato.

Dai commenti qui sotto e su Mastodon emerge che moltissime persone non riescono a distinguere quale sia la voce generata e quale sia quella reale.

Mi ha sorpreso tantissimo scoprire che anche persone che mi conoscono molto bene e hanno molta familiarità con la mia voce fanno fatica a riconoscere quale sia quella artificiale. Questo sembra indicare che falsificare una voce in modo credibile sia molto più facile di quanto io immaginassi, perché io riconosco molto chiaramente le caratteristiche tipiche di una voce sintetica come questa (non solo la mia), in una sorta di uncanny valley acustica, mentre a quanto pare molte persone non hanno la stessa sensibilità (che io probabilmente ho acquisito a furia di lavorare in radio e con le voci sintetiche).

Se volete sapere la soluzione e i dettagli che rivelano la natura sintetica della voce, selezionate il testo invisibile qui sotto per renderlo leggibile. Non pubblicate la soluzione nei commenti, per favore, per non rovinare il gioco agli altri lettori.

Inizio testo invisibile:

Quella sintetica è la seconda. La si può riconoscere dalla dizione migliore della mia (io ho un accento lombardo-ticinese), dalla pronuncia delle parole inglesi (che è italianizzata nella versione sintetica ed è invece quella corretta britannica nella versione reale), dalla cadenza non molto naturale di alcune delle domande e dal modo leggermente impacciato di pronunciare “www punto”. La cosa che mi ha impressionato di più della voce sintetica è che non solo imita perfettamente i miei toni e anche le mie caratteristiche (come la “C” piuttosto esagerata che ogni tanto mi scappa), ma ha generato da sola il cambio nettissimo di tono e velocità di “non vi preoccupate”, senza che io lo suggerissi in alcun modo. Ribadisco che ElevenLabs ha ricevuto solo il testo puro e semplice, senza alcuna istruzione di intonazione delle singole frasi o parole.

Fine testo invisibile.