Per il podcast settimanale per la RSI preparo sempre un cosiddetto lancio: un
breve intervento preregistrato, che viene trasmesso sulla Rete Tre della RSI e
serve a presentare i temi della puntata e a fornire le coordinate per scaricarlo. Questa settimana ho provato a
generarne due versioni: una naturale, usando la mia voce dal vivo, e una
sintetica, basata sulla mia voce clonata a pagamento da
ElevenLabs. Eccole.
Riuscite a riconoscere quella sintetica?
Non dovrebbe essere difficile; quello che mi preme far notare, però, è il
fatto che la versione sintetica è stata generata partendo da un testo
completamente privo di informazioni di intonazione. Molti di questi
software di sintesi vocale richiedono che vengano specificati, parola per
parola, i toni e altre informazioni, e questo è un lavoro tedioso e lungo.
Il software di ElevenLabs, invece, determina automaticamente le intonazioni da
usare, in base al contesto e alla struttura delle frasi: l’unica indicazione
che gli ho fornito è il preambolo prima delle virgolette. Eppure notate il
modo in cui cambia il tono alle parole “non vi preoccupate”, per esempio.
Quello che segue è il testo che gli ho dato in pasto pari pari, scegliendo poi il “ciak”
migliore fra i tre o quattro che ho generato per prova:
Paolo parla con voce veloce ed eccitata da disk-jockey radiofonico: “Se
qualcuno vi dice che si sta dedicando al dropshipping, ma è stato coinvolto in
una sextortion e sta cercando aiuto per un cryptoscam, e non avete la minima
idea di cosa stia dicendo, non vi preoccupate: è normale! Sono parole recenti,
create per descrivere nuovi fenomeni legati a Internet. Se volete sapere cosa
significano o volete approfondirne la conoscenza, c’è una nuova puntata del
podcast Il Disinformatico, pronta da scaricare o mettere in coda per
l’ascolto, che risponde alle domande degli ascoltatori su trappole e truffe
della Rete! Si possono davvero fare soldi con la tecnica di compravendita del
“dropshipping”, come sembrano voler fare anche molti minorenni? Qual è la
strategia per difendersi dai ricatti basati su immagini esplicite ottenute con
l’inganno? C’è qualcosa di vero dietro le agenzie che promettono di recuperare
i soldi persi in truffe legate alle criptovalute? Sono Paolo Attivissimo, e vi
aspetto presso vu vu vu punto erre esse i punto ci acca slash ildisinformatico
e su tutte le principali piattaforme podcast!!”
Nel mio caso, il tempo necessario per generare varie volte la voce sintetica
(trovando il modo giusto per farle dire cose come http://www.rsi.ch) è grosso
modo lo stesso che ci ho messo a dire il testo dal vivo senza impaperarmi e
con l’intonazione che avevo in mente, per cui non si può ancora parlare di
risparmio di tempo. Ma ho potuto generare il lancio senza aver bisogno di un
microfono e di un ambiente silenzioso, e avrei potuto generarlo anche se fossi
stato afono per qualunque motivo. E fra dieci o vent’anni la mia voce
sintetica sarà ancora quella di oggi.
Ora immaginate questa tecnica applicata alla lettura di un intero libro per
produrre un audiolibro, cosa che normalmente richiede decine di ore di
disponibilità di uno speaker o di un attore professionista. O applicata
per far parlare chi non c’è più.
ALLERTA SPOILER: La soluzione
Confermo innanzi tutto che non ho rimescolato le due voci: uno dei lanci è interamente sintetico e l’altro è interamente reale. Non ho alterato la mia dizione o recitazione per confondere le acque: ho registrato il parlato esattamente come se lo dovessi usare in radio, e infatti uno dei due lanci è proprio quello che è stato usato per promuovere il podcast sulla Rete Tre della RSI. Aggiungo inoltre che da sempre rimuovo dal mio parlato quasi tutte le pause per prendere fiato.
Dai commenti qui sotto e su
Mastodon
emerge che moltissime persone non riescono a distinguere quale sia la voce
generata e quale sia quella reale.
Mi ha sorpreso tantissimo scoprire che anche persone che mi
conoscono molto bene e hanno molta familiarità con la mia voce fanno fatica a
riconoscere quale sia quella artificiale. Questo sembra indicare che falsificare
una voce in modo credibile sia molto più facile di quanto io immaginassi,
perché io riconosco molto chiaramente le caratteristiche tipiche di una voce
sintetica come questa (non solo la mia), in una sorta di uncanny valley acustica, mentre a quanto pare molte persone non hanno la stessa sensibilità (che
io probabilmente ho acquisito a furia di lavorare in radio e con le voci
sintetiche).
Se volete sapere la soluzione e i dettagli che rivelano la natura sintetica
della voce, selezionate il testo invisibile qui sotto per renderlo leggibile.
Non pubblicate la soluzione nei commenti, per favore, per non rovinare il
gioco agli altri lettori.
Inizio testo invisibile:
Quella sintetica è la seconda. La si può riconoscere dalla dizione migliore
della mia (io ho un accento lombardo-ticinese), dalla pronuncia delle parole
inglesi (che è italianizzata nella versione sintetica ed è invece quella
corretta britannica nella versione reale), dalla cadenza non molto naturale
di alcune delle domande e dal modo leggermente impacciato di pronunciare
“www punto”. La cosa che mi ha impressionato di più della voce
sintetica è che non solo imita perfettamente i miei toni e anche le mie
caratteristiche (come la “C” piuttosto esagerata che ogni tanto mi scappa),
ma ha generato da sola il cambio nettissimo di tono e velocità di
“non vi preoccupate”, senza che io lo suggerissi in alcun modo.
Ribadisco che ElevenLabs ha ricevuto solo il testo puro e semplice, senza
alcuna istruzione di intonazione delle singole frasi o parole.
Fine testo invisibile.