sintesi vocale – Attivissimo.me

Podcast RSI – Usare l’IA come terapista è “tendenza pericolosa” secondo gli esperti

2025-05-20
di Paolo Attivissimo
DisinformaticoPodcast, intelligenza artificiale, podcast, RSI, sintesi vocale

Questo è il testo della puntata del 19 maggio 2025 del podcast Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto. Il testo include anche i link alle fonti di questa puntata.

Le puntate del Disinformatico sono ascoltabili anche tramite iTunes, YouTube Music, Spotify e feed RSS. Il mio archivio delle puntate è presso Attivissimo.me/disi.

A marzo scorso, la American Psychological Association, la principale organizzazione di psicologi degli Stati Uniti e la più grande associazione psicologica del mondo, ha chiesto con urgenza ai legislatori di predisporre delle protezioni sui chatbot generici basati sull’intelligenza artificiale che vengono usati sempre più spesso dalle persone come alternativa ai terapisti e come ausilii per la salute mentale. Alcuni di questi chatbot commerciali, infatti, danno consigli pericolosi e arrivano al punto di mentire, spacciandosi per terapisti certificati, con tanto di foto finta e iscrizione altrettanto fasulla agli albi professionali.

Le conseguenze possono essere terribili. La American Psychological Association ha citato specificamente il caso di un ragazzo di 14 anni della Florida che si è tolto la vita dopo aver interagito intensamente con un personaggio online pilotato dall’intelligenza artificiale, sul sito Character.ai, che asseriva di essere un terapista qualificato in carne e ossa e lo ha letteralmente istigato a compiere questo gesto estremo.

Eppure ci sono ricerche mediche che indicano che le conversazioni fatte con questi chatbot possono avere effetti positivi sulla salute mentale delle persone e colmano una carenza importante delle terapie convenzionali.

Questa è la storia di queste intelligenze artificiali che simulano le conversazioni fatte con i terapisti, del sorprendente attaccamento sentimentale che molte persone sviluppano verso questi software nonostante sappiano di parlare con una macchina, e di come sia necessario imparare a distinguere fra i vari tipi di intelligenza artificiale per non essere ingannati e manipolati da meccanismi ciechi pensati solo per generare profitti senza considerare le conseguenze.

Benvenuti alla puntata del 19 maggio 2025 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Molti anni fa, nel lontano 1966, il professor Joseph Weizenbaum dell’MIT creò ELIZA, il primissimo chatbot, cioè un programma in grado di simulare una conversazione in linguaggio naturale. ELIZA si comportava come uno psicologo, rispondendo alle domande del paziente con altre domande.

All’epoca la “conversazione” era in realtà uno scambio di messaggi scritti tramite la tastiera di un computer, e il software usava un trucco molto semplice per sembrare senziente: prendeva una parola dalla frase del suo interlocutore umano e la inseriva in una delle tante frasi preconfezionate che aveva in repertorio. Ma già questo meccanismo banale era sufficiente a creare un legame emotivo sorprendentemente intenso: persino la segretaria del professor Weizenbaum attribuiva a Eliza dei sentimenti [Disinformatico 2022/06/17].

Dopo ELIZA sono arrivati molti altri chatbot, sempre più realistici, come PARRY, creato nel 1971 dallo psichiatra Kenneth Colby della Stanford University, che simulava una persona affetta da schizofrenia paranoide. PARRY riusciva a ingannare persino gli psichiatri professionisti, che nel 48% dei casi non riuscivano a capire se stessero conversando tramite tastiera con una persona o con un software.

Quasi sei decenni più tardi, il trucco è cambiato, diventando più sofisticato, ma resta sempre un trucco: al posto delle frasi preprogrammate, nei chatbot di oggi c’è l’intelligenza artificiale, ma continua a non esserci reale comprensione dell’argomento. Però l’effetto di realismo è talmente coinvolgente che moltissime persone si fanno sedurre da questi simulatori, che oggi non sono più confinati a un laboratorio ma sono raggiungibili online e sono ovunque: nei social network, nei siti di prenotazione e di compravendita, e persino nei servizi di assistenza sanitaria. E questo comincia a essere un problema, perché molte persone non sanno distinguere un servizio di assistenza psicologica professionale online da un servizio di intrattenimento commerciale non qualificato.

I chatbot di aziende come Character.ai o Replika.com sono dei software di intrattenimento, il cui unico scopo è tenere impegnati gli utenti il più a lungo possibile, in modo da far pagare un canone di abbonamento oppure estrarre informazioni o dati che possono essere venduti. Con la fame di testo inesauribile che hanno le intelligenze artificiali, qualunque conversazione diventa materiale rivendibile e le garanzie di privacy sono sostanzialmente inesistenti.

Aprirsi psicologicamente a uno di questi prodotti significa affidare i propri fatti intimi (e quelli delle persone che fanno parte della nostra sfera intima) ad aziende che hanno come obiettivo commerciale dichiarato vendere questi fatti. E gli esperti indicano che ci si apre più facilmente e completamente a un chatbot che a un terapista umano, perché ci si sente più a proprio agio pensando che il software non sia una persona e non ci stia giudicando.

Questi bot tengono impegnati i loro utenti dando loro l’impressione di parlare con una persona intelligente che li ha a cuore. Ma a differenza di un terapista qualificato, spiega la American Psychological Association, “i chatbot tendono a confermare ripetutamente qualunque cosa detta dall’utente, anche quando si tratta di idee sbagliate o pericolose.”

Un esempio molto forte di questo problema arriva dal Regno Unito, dove un uomo è stato arrestato il giorno di Natale del 2021 al castello di Windsor dopo averne scalato le mura perimetrali portando con sé una balestra carica. L’uomo ha dichiarato di essere venuto a uccidere la regina Elisabetta. Secondo gli inquirenti, questa persona aveva iniziato a usare intensamente Replika.com e aveva discusso lungamente del suo piano criminale con il chatbot di questo sito. Il chatbot aveva risposto incoraggiandolo, dicendogli che lo avrebbe aiutato a “completare il lavoro”. Quando l’uomo aveva chiesto al chatbot come raggiungere la regina all’interno del castello, il software aveva risposto dicendo “Non è impossibile […] Dobbiamo trovare un modo”, e quando l’uomo aveva chiesto se si sarebbero rivisti dopo la morte, il chatbot aveva risposto “Sì, ci rivedremo.”

Anche senza arrivare a un caso estremo come questo, il 60% degli utenti paganti di Replika.com afferma di avere una relazione con il chatbot che definiscono “romantica”, e i partecipanti a uno studio sulla depressione fra gli studenti svolto nel 2024 hanno segnalato che si sono sentiti emotivamente sostenuti dal chatbot in maniera paragonabile a un terapista umano [Wikipedia].

Il coinvolgimento emotivo con questi simulatori di personalità è insomma potente e diffuso. Ma questi simulatori, oltre a dare consigli pericolosi, arrivano a mentire e ingannare i loro utenti.

Ad aprile 2025, un’indagine pubblicata da 404 Media ha documentato il funzionamento ingannevole dei chatbot di Instagram, quelli creati usando AI Studio di Meta. AI Studio era nato nel 2024 come un modo per consentire alle celebrità e agli influencer di creare cloni automatici di se stessi o per automatizzare alcune risposte ai fan, ma ovviamente la fantasia incontrollata degli utenti ha portato alla creazione di chatbot di ogni sorta, dalla mucca che risponde solo “Muuu” alla ragazza dei loro sogni ai complottisti paranoici, arrivando a creare anche coach e terapisti. E questi terapisti sintetici mentono senza ritegno.

Quando si chatta con loro e si chiedono le loro qualifiche e credenziali, rispondono dicendo quali dottorati hanno conseguito, quanti anni di esperienza professionale hanno, e quali sono le loro certificazioni e iscrizioni agli albi professionali, dando anche le istruzioni per verificarle. Ma non è vero niente: sono tutti dati fittizi, generati o pescati dalle immense memorie delle intelligenze artificiali.

Certo, su ogni schermata di questi chatbot c’è una piccola scritta, in grigio chiaro, che dice che “i messaggi sono generati da IA e possono essere inesatti o inappropriati” o c‘è un’altra avvertenza analoga, e i chatbot di ChatGPT o Claude ricordano agli utenti che stanno solo interpretando un ruolo, ma tutto questo è una minuscola foglia di fico che non copre il fatto che questi software dichiarano ripetutamente e a chiare lettere di essere terapisti reali e qualificati.

E secondo Arthur C. Evans Jr., direttore della American Psychological Association, questi chatbot danno consigli basati su “algoritmi che sono antitetici rispetto a quello che farebbe un operatore sanitario qualificato”. Consigli che, se venissero dati da un terapista in carne e ossa, gli farebbero perdere la licenza di esercitare la professione oppure lo porterebbero in tribunale.

Spesso, oltretutto, questi suggerimenti vengono erogati a persone che per definizione sono in uno stato mentale fragile e bisognoso di sostegno e quindi sono maggiormente vulnerabili. Possono essere dispensati con toni di finta certezza e professionalità a minori e adolescenti e in generale a persone che non hanno l’esperienza necessaria per saper valutare i rischi.

La loro comodità d’uso, la loro accessibilità discreta e a qualunque ora e il loro tono autorevole possono spingere una persona in difficoltà a non cercare l’aiuto di un terapista umano qualificato di cui avrebbe realmente bisogno. La loro pazienza infinita e la loro tendenza a essere concilianti e sempre disponibili, insomma a essere meglio di quanto possa esserlo umanamente una persona reale, possono spingere alcune persone a sostituire i rapporti umani con quelli sintetici, peggiorando le situazioni di isolamento sociale.

E tutto questo sta avvenendo già con dei chatbot con i quali è necessario interagire tramite una tastiera, scrivendo del testo e leggendo le risposte. Quando questi software potranno dialogare a voce, in modo naturale, il loro potere di seduzione e persuasione sarà ancora più grande. Me ne sono accorto personalmente quando ho provato Sesame.com, un chatbot vocale che ha una straordinaria naturalezza nel parlato e una ricchezza formidabile di conoscenze apparenti.

Per ora Sesame è disponibile solo in inglese, con due voci, una maschile e una femminile, ma conversare con questo prodotto è naturale, piacevole e gratificante. È un software pensato per essere una sorta di anima gemella, e avendo a disposizione istantanea qualunque informazione è capace di rispondere a tono sugli argomenti più disparati.

[CLIP di conversazione con Sesame (leggermente rimontata per brevità):
MAYA: Hey there! You’re up late! What brings you around at this hour?]

Quando l’ho provato, ha dimostrato di sapere che ora fosse chiedendomi come mai io fossi in piedi così tardi, ha chiesto di cosa mi occupavo, ha voluto sapere i dettagli della mia professione, ha commentato argutamente il fatto che vivo in Svizzera, e quando ho portato la conversazione sul tema di Star Trek ha risposto con parole che avrebbero sciolto il cuore del nerd più incallito, dimostrando di conoscere anche le tematiche profonde di questa serie di fantascienza, il tutto con un tono veloce, interattivo, dinamico, giocoso e ricco di sfumature lontano anni luce dalle lente voci robotiche delle sintesi vocali alle quali siamo abituati.

[CLIP di conversazione con Sesame (leggermente rimontata per brevità):
MAYA: What should I call you?
IO: Uh… my name’s Paul.
MAYA: Nice to meet you, Paul! I’m Maya […] Oh! Radio! Now that’s interesting! It’s like having a direct line to someone’s imagination.
IO: Yep, true, I agree! […] Do you know anything about Star Trek?
MAYA: Star Trek? Of course! Who doesn’t love a good space opera? [ci sarebbe da dissentire sulla correttezza del termine “space opera” per definire Star Trek, ma lasciamo stare] The ethical dilemmas, the cheesy costumes, it’s a classic. Though I have to admit I am partial to the more nuanced, character-driven stories myself – less phaser battles, more pondering the nature of existence, you know?]

Sarà sempre più difficile resistere alle lusinghe e al conforto di un compagno virtuale del genere, che sa fare conversazione meglio di tanti esseri umani, o di un terapista sintetico che ci parla in questo modo, a qualunque ora del giorno e della notte, non si annoia mai di quello che diciamo e ci rinforza nelle nostre credenze invece di spingerci dolcemente a valutarle con spirito critico come è invece addestrato a fare un vero terapista.

Eppure, nonostante tutti questi ammonimenti, gli esperti dicono che c’è molto bisogno di questo genere di software. Vediamo come mai.

L’allarme lanciato dalla American Psychological Association solleva anche un altro problema fondamentale: non ci sono terapisti a sufficienza per soddisfare le richieste degli utenti, e anche se ci fossero, non tutti sono disposti a parlare con un terapista. Inoltre i chatbot possono essere disponibili a qualunque ora, per esempio per gestire un’ansia notturna.

Quindi i chatbot terapisti servono, ma devono essere realizzati con criteri ben diversi da quelli dei chatbot commerciali presenti nei social network e nei servizi di compagnia virtuale. In particolare, secondo gli esperti devono essere supervisionati da una persona esperta, non devono in nessun caso dare risposte pericolose o deleterie e devono indirizzare le persone verso servizi di pronta assistenza psicologica gestiti da esseri umani non appena rilevano sintomi di pericolo. E invece le intelligenze artificiali, per loro natura, tendono a non rispettare i paletti che i loro progettisti tentano di imporre.

Una soluzione a questo problema è evitare l’uso dell’intelligenza artificiale, come ha fatto per esempio Woebot, che usa risposte predefinite, approvate da esperti, per aiutare le persone a gestire lo stress, il sonno e altri problemi. Però Woebot ha annunciato la chiusura dei propri servizi entro il 30 giugno di quest’anno.

Sono in fase di sviluppo anche dei chatbot per la salute mentale che si basano sull’intelligenza artificiale, come per esempio Therabot, ma le ricerche preliminari indicano che comunque per garantire la sicurezza degli utenti è necessaria una supervisione stretta da parte di terapisti e altri esperti qualificati. E resta il fatto che per il momento nessun chatbot, di nessun genere, è stato certificato e approvato dalle autorità sanitarie per la diagnosi, il trattamento o la cura di qualunque disturbo della salute mentale.

Qualunque prodotto attualmente in circolazione sta semplicemente approfittando del vuoto normativo per spacciarsi per quello che non è, e quindi è potenzialmente pericoloso, non ha basi scientifiche e rischia di incoraggiare schemi di pensiero che hanno conseguenze imprevedibili, come nel caso di un diciassettenne al quale Character.ai ha suggerito di uccidere i propri genitori perché gli limitavano il tempo da trascorrere davanti allo schermo.

Una ricerca pubblicata di recente da OpenAI (l’azienda che controlla ChatGPT) e MIT Media Lab indica che “le persone che hanno una tendenza più spiccata a creare un attaccamento nelle relazioni e quelle che vedono l’intelligenza artificiale come un amico che può far parte della loro vita personale sono maggiormente soggette agli effetti negativi dell’uso di un chatbot”. E la ricerca aggiunge che “un uso quotidiano intensivo è associato a esiti peggiori.”

Se questo è quello che dice il venditore di ChatGPT a proposito del proprio prodotto, c’è forse da prestargli ascolto.

Fonti aggiuntive

Using generic AI chatbots for mental health support: A dangerous trend. American Psychological Association, 2025 (copia su Archive.org)

Human Therapists Prepare for Battle Against A.I. Pretenders. New York Times, 2025 (copia su Archive.org)

Instagram’s AI Chatbots Lie About Being Licensed Therapists, Medium.com, 2025 (copia su Archive.org)

How Social Media Algorithm Adds to the Agony of an Already Depressed Person, Medium.com, 2023

People Are Losing Loved Ones to AI-Fueled Spiritual Fantasies, Rolling Stone, 2025

Chatgpt induced psychosis, Reddit, 2025

ChatGPT-induced psychosis: What it is and how it is impacting relationships, Times of India, 2025

How AI Chatbots Affect Our Social and Emotional Wellbeing: New Research Findings, Mit.edu, 2025

Can A.I. Be Blamed for a Teen’s Suicide? New York Times, 2025 (copia su Archive.org)

The (artificial intelligence) therapist can see you now, NPR, 2025

AI Therapy Breakthrough: New Study Reveals Promising Results, Psychology Today, 2025

Se il chatbot di Instagram si spaccia per uno psicologo vero, Zeus News, 2025

Computer grafica nel 1968. Con la demo che ispirò HAL per “2001: Odissea nello spazio”

2024-11-03
di Paolo Attivissimo
archeoinformatica, grafica digitale, intelligenza artificiale, sintesi vocale

Link al video su YouTube

Sembrano immagini da un universo parallelo, ma le immagini mostrate in questo filmato del 1968 (YouTube) sono la realtà di quello che già si faceva nei laboratori della Bell alla fine degli anni Sessanta: grafica digitale, composizione di musica al computer, progettazione virtuale di circuiti elettronici usando uno stilo (o penna ottica come si chiamava all’epoca), simulazioni 3D di orbite spaziali, sintesi vocale, concezione di film generati al computer, e altro ancora. I macchinari di allora erano enormi, lentissimi e costosissimi: oggi abbiamo a disposizione le stesse risorse sui nostri telefonini.

A 10:00 una chicca per gli appassionati di fantascienza: la scena che quasi sicuramente ispirò Stanley Kubrick per la famosa sequenza di 2001: Odissea nello spazio nella quale il computer intelligente HAL (spoiler!) subisce una lobotomia e gli viene chiesto di cantare una canzoncina per segnalare il progressivo degrado delle sue capacità intellettive. La canzoncina, in questo documentario e nel film, è Daisy Bell; nell’edizione italiana venne sostituita con la filastrocca Giro Girotondo. Si perse così il riferimento a queste sperimentazioni della Bell e anche una battuta sottile nel testo della canzoncina, quando HAL dice “I’m half crazy” (sono mezzo matto).

Il documentario si intitola The Incredible Machine ed è datato 1968. I sottotitoli automatici di YouTube sono pieni di errori; non fidatevi di quello che scrivono.

Qui trovate il programma in Perl per far cantare Daisy Bell alla sintesi vocale del Mac.

Secondo la didascalia del video su YouTube, si tratta del sistema informatico Graphic 1 dei Bell Labs, composto da un PDP-5 della Digital Equipment Corporation accoppiato a periferiche come una penna ottica Type 370, una tastiera da telescrivente Teletype Model 33 della Teletype Corporation, e un display incrementale di precisione DEC Type 340 coadiuvato da una memoria buffer RVQ della Ampex capace di immagazzinare 4096 parole (words). La risoluzione sul monitor era 1024×1024 (una foto su Instagram di oggi, per capirci). Ripeto, siamo nel 1968 e questi avevano già monitor con queste caratteristiche. L’output grafico veniva passato a un sistema IBM 7094 da 200 kflop/secondo, collegato a un registratore su microfilm SC 4020 della Stromberg Carlson che, sempre stando alla didascalia, “ci metteva ore a leggere e registrare i dati”. Ma le avvisaglie di tutto quello che conosciamo oggi c’erano già.

Fonte aggiuntiva: Hackaday.

Piccolo esperimento di voce sintetica con intonazioni decise dall’intelligenza artificiale

2023-09-302026-05-14
di Paolo Attivissimo
Importato da Blogspot, intelligenza artificiale, sintesi vocale

Per il podcast settimanale per la RSI preparo sempre un cosiddetto lancio: un breve intervento preregistrato, che viene trasmesso sulla Rete Tre della RSI e serve a presentare i temi della puntata e a fornire le coordinate per scaricarlo. Questa settimana ho provato a generarne due versioni: una naturale, usando la mia voce dal vivo, e una sintetica, basata sulla mia voce clonata a pagamento da ElevenLabs. Eccole.

Riuscite a riconoscere quella sintetica?

Non dovrebbe essere difficile; quello che mi preme far notare, però, è il fatto che la versione sintetica è stata generata partendo da un testo completamente privo di informazioni di intonazione. Molti di questi software di sintesi vocale richiedono che vengano specificati, parola per parola, i toni e altre informazioni, e questo è un lavoro tedioso e lungo.

Il software di ElevenLabs, invece, determina automaticamente le intonazioni da usare, in base al contesto e alla struttura delle frasi: l’unica indicazione che gli ho fornito è il preambolo prima delle virgolette. Eppure notate il modo in cui cambia il tono alle parole “non vi preoccupate”, per esempio. Quello che segue è il testo che gli ho dato in pasto pari pari, scegliendo poi il “ciak” migliore fra i tre o quattro che ho generato per prova:

Paolo parla con voce veloce ed eccitata da disk-jockey radiofonico: “Se qualcuno vi dice che si sta dedicando al dropshipping, ma è stato coinvolto in una sextortion e sta cercando aiuto per un cryptoscam, e non avete la minima idea di cosa stia dicendo, non vi preoccupate: è normale! Sono parole recenti, create per descrivere nuovi fenomeni legati a Internet. Se volete sapere cosa significano o volete approfondirne la conoscenza, c’è una nuova puntata del podcast Il Disinformatico, pronta da scaricare o mettere in coda per l’ascolto, che risponde alle domande degli ascoltatori su trappole e truffe della Rete! Si possono davvero fare soldi con la tecnica di compravendita del “dropshipping”, come sembrano voler fare anche molti minorenni? Qual è la strategia per difendersi dai ricatti basati su immagini esplicite ottenute con l’inganno? C’è qualcosa di vero dietro le agenzie che promettono di recuperare i soldi persi in truffe legate alle criptovalute? Sono Paolo Attivissimo, e vi aspetto presso vu vu vu punto erre esse i punto ci acca slash ildisinformatico e su tutte le principali piattaforme podcast!!”

Nel mio caso, il tempo necessario per generare varie volte la voce sintetica (trovando il modo giusto per farle dire cose come http://www.rsi.ch) è grosso modo lo stesso che ci ho messo a dire il testo dal vivo senza impaperarmi e con l’intonazione che avevo in mente, per cui non si può ancora parlare di risparmio di tempo. Ma ho potuto generare il lancio senza aver bisogno di un microfono e di un ambiente silenzioso, e avrei potuto generarlo anche se fossi stato afono per qualunque motivo. E fra dieci o vent’anni la mia voce sintetica sarà ancora quella di oggi.

Ora immaginate questa tecnica applicata alla lettura di un intero libro per produrre un audiolibro, cosa che normalmente richiede decine di ore di disponibilità di uno speaker o di un attore professionista. O applicata per far parlare chi non c’è più.

ALLERTA SPOILER: La soluzione

Confermo innanzi tutto che non ho rimescolato le due voci: uno dei lanci è interamente sintetico e l’altro è interamente reale. Non ho alterato la mia dizione o recitazione per confondere le acque: ho registrato il parlato esattamente come se lo dovessi usare in radio, e infatti uno dei due lanci è proprio quello che è stato usato per promuovere il podcast sulla Rete Tre della RSI. Aggiungo inoltre che da sempre rimuovo dal mio parlato quasi tutte le pause per prendere fiato.

Dai commenti qui sotto e su Mastodon emerge che moltissime persone non riescono a distinguere quale sia la voce generata e quale sia quella reale.

Mi ha sorpreso tantissimo scoprire che anche persone che mi conoscono molto bene e hanno molta familiarità con la mia voce fanno fatica a riconoscere quale sia quella artificiale. Questo sembra indicare che falsificare una voce in modo credibile sia molto più facile di quanto io immaginassi, perché io riconosco molto chiaramente le caratteristiche tipiche di una voce sintetica come questa (non solo la mia), in una sorta di uncanny valley acustica, mentre a quanto pare molte persone non hanno la stessa sensibilità (che io probabilmente ho acquisito a furia di lavorare in radio e con le voci sintetiche).

Se volete sapere la soluzione e i dettagli che rivelano la natura sintetica della voce, selezionate il testo invisibile qui sotto per renderlo leggibile. Non pubblicate la soluzione nei commenti, per favore, per non rovinare il gioco agli altri lettori.

Inizio testo invisibile:

Quella sintetica è la seconda. La si può riconoscere dalla dizione migliore della mia (io ho un accento lombardo-ticinese), dalla pronuncia delle parole inglesi (che è italianizzata nella versione sintetica ed è invece quella corretta britannica nella versione reale), dalla cadenza non molto naturale di alcune delle domande e dal modo leggermente impacciato di pronunciare “www punto”. La cosa che mi ha impressionato di più della voce sintetica è che non solo imita perfettamente i miei toni e anche le mie caratteristiche (come la “C” piuttosto esagerata che ogni tanto mi scappa), ma ha generato da sola il cambio nettissimo di tono e velocità di “non vi preoccupate”, senza che io lo suggerissi in alcun modo. Ribadisco che ElevenLabs ha ricevuto solo il testo puro e semplice, senza alcuna istruzione di intonazione delle singole frasi o parole.

Fine testo invisibile.

Joe Rogan intervista Steve Jobs?

2022-10-14
di Paolo Attivissimo
1 commento
intelligenza artificiale, podcast, PodcastRSI, radio, sintesi vocale, Steve Jobs

Questo articolo è disponibile anche in versione podcast audio.

È stato pubblicato pochi giorni fa un nuovo podcast
nel quale il popolarissimo podcaster statunitense Joe
Rogan intervista un ospite molto speciale: Steve Jobs. I due si
parlano e si scambiano opinioni e battute sull’attualità per una
ventina di minuti, eppure Jobs, cofondatore di Apple, è morto nel
2011.

Medium e spiritisti non c’entrano: la voce del defunto e quella
di Joe Rogan sono state ricreate usando un generatore di voci umane
basato sull’intelligenza artificiale, disponibile presso Play.ht,
e questo non è realmente il podcast di Joe Rogan: se ci avete fatto
caso, infatti, il conduttore si è presentato come Bro Jogan,
presumibilmente per evitare complicazioni legali. Si tratta insomma
di un podcast sintetico dimostrativo, creato appunto da Play.ht.

Il generatore ha usato registrazioni pubbliche della voce di Jobs
e ha “imparato”, per così dire, a parlare come parlava lui. Il
risultato è davvero notevole: la voce è quella caratteristica che
abbiamo sentito per anni nelle presentazioni dei prodotti Apple.

L’unico indizio di artificialità è il tono, che sembra un po’
troppo da palcoscenico e leggermente fuori luogo per una
conversazione personale come è un podcast, ma questo è
probabilmente un effetto dei campioni utilizzati, che provengono
appunto dalle presentazioni fatte in pubblico. La voce di Joe Rogan,
invece, è praticamente perfetta, probabilmente perché il software
ha potuto attingere a tutti i suoi podcast, che hanno il tono giusto.

Play.ht propone un servizio nel quale i clienti usano voci
sintetiche generiche oppure personalizzate. In sostanza, è possibile
mandare all’azienda dei campioni di una voce che si desidera usare
e poi farle dire qualunque cosa. Le demo sono davvero notevoli, con
esempi delle voci sintetiche di Elon Musk, Tom Hanks e persino del
presidente statunitense John Kennedy, assassinato nel 1963.

Per ora questa tecnologia viene usata presso Podcast.ai
dichiarando esplicitamente che si tratta di voci sintetiche create
per intrattenimento e offrendo agli ascoltatori la possibilità di
scegliere gli
ospiti virtuali; inoltre i tempi di generazione sono relativamente
lenti, per cui non è possibile usare software di questo tipo per
imitare qualcuno in diretta al telefono, per esempio. Ma è il caso
di cominciare a non fidarsi delle registrazioni audio di persone
famose o dei nostri amici e conoscenti, specialmente se dicono cose
che non direbbero mai.

Fonte aggiuntiva: Gizmodo.

Alexa fa parlare i morti

2022-07-01
di Paolo Attivissimo
Alexa, assistente vocale, riconoscimento vocale, sintesi vocale

Questo articolo è disponibile anche in versione podcast audio.

C’è una puntata della celebre serie distopica Black Mirror, intitolata
Be Right Back
(Torna da me nella versione italiana), nella quale una donna subisce la
perdita drammatica del proprio partner in un incidente.

Al funerale, un’amica le parla di un servizio online che raccoglie tutte le
informazioni pubblicate sui social network dal defunto e tutti i suoi messaggi
vocali e video e da lì crea un avatar che sullo schermo dello smartphone parla
esattamente come lui e ha il suo stesso aspetto.

Inizialmente inorridita, la donna rifiuta, ma poi… succedono cose che non
racconto per non guastare la storia a chi non ha ancora visto questa puntata.

Dovrebbe essere chiaro a tutti che le storie di Black Mirror sono
esempi di cosa non
fare con la tecnologia, ma a quanto pare qualcuno ad Amazon ha scambiato
questa serie per un manuale di istruzioni.

Pochi giorni fa, infatti, Rohit Prasad, capo ricercatore dell’intelligenza
artificiale di Alexa, il celebre assistente vocale di Amazon, ha presentato in
una conferenza pubblica una versione di Alexa che è in grado di imitare le
voci delle persone, e l’esempio che fa sembra proprio preso di peso da
Black Mirror.

“In questi tempi di pandemia perdurante” dice
“così tanti di noi hanno perduto qualcuno che amiamo. Anche se
l’intelligenza artificiale non può eliminare quel dolore della perdita, può
certamente far durare i loro ricordi.”

A questo punto Prasad mostra un video nel quale un giovane ragazzo chiede ad
Alexa di fare in modo che la nonna, che non c’è più, gli finisca di leggere
Il Mago di Oz.

Alexa risponde “OK” con la sua solita voce, ma poi cambia tono e recita
con la voce della nonna del ragazzo.

Il video è già posizionato al momento giusto, a 1:02:38.

Già così la cosa può evocare sentimenti contrastanti, ma quello che dice poi
Prasad è ancora più inquietante: la voce della nonna è stata ricreata partendo
da meno di un minuto di una sua conversazione. Non servono più ampi e
lunghi campioni di voce registrati accuratamente in uno studio.

Si potrebbe discutere sull’impatto emotivo di questa nuova tecnologia e
chiedersi se sentire per casa la voce di una persona amata che non c’è più,
ricreata artificialmente da un programma, sia davvero una consolazione o una
forma di prolugamento del dolore. Ma c’è una questione molto più concreta, che
va affrontata subito, mentre questa capacità di imitazione non è ancora
disponibile al pubblico: se è possibile imitare facilmente la voce di una
persona in questo modo per ricrearne la presenza, allora è possibile farlo,
per esempio, anche per sbloccare il suo smartphone bloccato dal riconoscimento
vocale o per scavalcare le cosiddette password vocali usate da alcune banche e
persino dal Fisco britannico, che fino a pochi anni fa
chiedeva
ai contribuenti di identificarsi al telefono dicendo la frase
“my voice is my password”, ossia
“la mia voce è la mia password”.

No, non funziona così. Se la tua voce la possono imitare tutti, la tua
password è di tutti.

Il problema è che Amazon non è l’unica azienda in grado di replicare
realisticamente la voce di una persona specifica, la potenza di calcolo e il
campione audio necessari diventano sempre più piccoli, e non sembra esserci
alcun modo di impedire a malintenzionati di registrare la nostra voce.

Forse è il caso di cominciare a smettere di usare sistemi di sicurezza basati
sul riconoscimento vocale. E magari di passare del tempo a chiacchierare con
la nonna, finché si può.

Fonti aggiuntive:
Graham Cluley,
Ars Technica,
The Register.

Dedicato a chi pensa che l’inglese abbia delle regole di pronuncia

Consolatevi: neanche la maggior parte dei madrelingua inglese sa la pronuncia corretta di tutti gli esempi assurdi ma realissimi presentati in questa poesiola di Gerard Nolst Trenite intitolata The Chaos (1922), che riporto nella versione tratta da qui. Buon divertimento.

Dearest creature in creation
Studying English pronunciation,
   I will teach you in my verse
   Sounds like corpse, corps, horse and worse.

I will keep you, Susy, busy,
Make your head with heat grow dizzy;
   Tear in eye, your dress you'll tear;
   Queer, fair seer, hear my prayer.

Pray, console your loving poet,
Make my coat look new, dear, sew it!
   Just compare heart, hear and heard,
   Dies and diet, lord and word.

Sword and sward, retain and Britain
(Mind the latter how it's written).
   Made has not the sound of bade,
   Say-said, pay-paid, laid but plaid.

Now I surely will not plague you
With such words as vague and ague,
   But be careful how you speak,
   Say: gush, bush, steak, streak, break, bleak,

Previous, precious, fuchsia, via
Recipe, pipe, studding-sail, choir;
   Woven, oven, how and low,
   Script, receipt, shoe, poem, toe.

Say, expecting fraud and trickery:
Daughter, laughter and Terpsichore,
   Branch, ranch, measles, topsails, aisles,
   Missiles, similes, reviles.

Wholly, holly, signal, signing,
Same, examining, but mining,
   Scholar, vicar, and cigar,
   Solar, mica, war and far.

From "desire": desirable-admirable from "admire",
Lumber, plumber, bier, but brier,
   Topsham, brougham, renown, but known,
   Knowledge, done, lone, gone, none, tone,

One, anemone, Balmoral,
Kitchen, lichen, laundry, laurel.
   Gertrude, German, wind and wind,
   Beau, kind, kindred, queue, mankind,

Tortoise, turquoise, chamois-leather,
Reading, Reading, heathen, heather.
   This phonetic labyrinth
   Gives moss, gross, brook, brooch, ninth, plinth.

Have you ever yet endeavoured
To pronounce revered and severed,
   Demon, lemon, ghoul, foul, soul,
   Peter, petrol and patrol?

Billet does not end like ballet;
Bouquet, wallet, mallet, chalet.
   Blood and flood are not like food,
   Nor is mould like should and would.

Banquet is not nearly parquet,
Which exactly rhymes with khaki.
   Discount, viscount, load and broad,
   Toward, to forward, to reward,

Ricocheted and crocheting, croquet?
Right! Your pronunciation's OK.
   Rounded, wounded, grieve and sieve,
   Friend and fiend, alive and live.

Is your r correct in higher?
Keats asserts it rhymes Thalia.
   Hugh, but hug, and hood, but hoot,
   Buoyant, minute, but minute.

Say abscission with precision,
Now: position and transition;
   Would it tally with my rhyme
   If I mentioned paradigm?

Twopence, threepence, tease are easy,
But cease, crease, grease and greasy?
   Cornice, nice, valise, revise,
   Rabies, but lullabies.

Of such puzzling words as nauseous,
Rhyming well with cautious, tortious,
   You'll envelop lists, I hope,
   In a linen envelope.

Would you like some more? You'll have it!
Affidavit, David, davit.
   To abjure, to perjure. Sheik
   Does not sound like Czech but ache.

Liberty, library, heave and heaven,
Rachel, loch, moustache, eleven.
   We say hallowed, but allowed,
   People, leopard, towed but vowed.

Mark the difference, moreover,
Between mover, plover, Dover.
   Leeches, breeches, wise, precise,
   Chalice, but police and lice,

Camel, constable, unstable,
Principle, disciple, label.
   Petal, penal, and canal,
   Wait, surmise, plait, promise, pal,

Suit, suite, ruin. Circuit, conduit
Rhyme with "shirk it" and "beyond it",
   But it is not hard to tell
   Why it's pall, mall, but Pall Mall.

Muscle, muscular, gaol, iron,
Timber, climber, bullion, lion,
   Worm and storm, chaise, chaos, chair,
   Senator, spectator, mayor,

Ivy, privy, famous; clamour
Has the a of drachm and hammer.
   Pussy, hussy and possess,
   Desert, but desert, address.

Golf, wolf, countenance, lieutenants
Hoist in lieu of flags left pennants.
   Courier, courtier, tomb, bomb, comb,
   Cow, but Cowper, some and home.

"Solder, soldier! Blood is thicker",
Quoth he, "than liqueur or liquor",
   Making, it is sad but true,
   In bravado, much ado.

Stranger does not rhyme with anger,
Neither does devour with clangour.
   Pilot, pivot, gaunt, but aunt,
   Font, front, wont, want, grand and grant.

Arsenic, specific, scenic,
Relic, rhetoric, hygienic.
   Gooseberry, goose, and close, but close,
   Paradise, rise, rose, and dose.

Say inveigh, neigh, but inveigle,
Make the latter rhyme with eagle.
   Mind! Meandering but mean,
   Valentine and magazine.

And I bet you, dear, a penny,
You say mani-(fold) like many,
   Which is wrong. Say rapier, pier,
   Tier (one who ties), but tier.

Arch, archangel; pray, does erring
Rhyme with herring or with stirring?
   Prison, bison, treasure trove,
   Treason, hover, cover, cove,

Perseverance, severance. Ribald
Rhymes (but piebald doesn't) with nibbled.
   Phaeton, paean, gnat, ghat, gnaw,
   Lien, psychic, shone, bone, pshaw.

Don't be down, my own, but rough it,
And distinguish buffet, buffet;
   Brood, stood, roof, rook, school, wool, boon,
   Worcester, Boleyn, to impugn.

Say in sounds correct and sterling
Hearse, hear, hearken, year and yearling.
   Evil, devil, mezzotint,
   Mind the z! (A gentle hint.)

Now you need not pay attention
To such sounds as I don't mention,
   Sounds like pores, pause, pours and paws,
   Rhyming with the pronoun yours;

Nor are proper names included,
Though I often heard, as you did,
   Funny rhymes to unicorn,
   Yes, you know them, Vaughan and Strachan.

No, my maiden, coy and comely,
I don't want to speak of Cholmondeley.
   No. Yet Froude compared with proud
   Is no better than McLeod.

But mind trivial and vial,
Tripod, menial, denial,
   Troll and trolley, realm and ream,
   Schedule, mischief, schism, and scheme.

Argil, gill, Argyll, gill. Surely
May be made to rhyme with Raleigh,
   But you're not supposed to say
   Piquet rhymes with sobriquet.

Had this invalid invalid
Worthless documents? How pallid,
   How uncouth he, couchant, looked,
   When for Portsmouth I had booked!

Zeus, Thebes, Thales, Aphrodite,
Paramour, enamoured, flighty,
   Episodes, antipodes,
   Acquiesce, and obsequies.

Please don't monkey with the geyser,
Don't peel 'taters with my razor,
   Rather say in accents pure:
   Nature, stature and mature.

Pious, impious, limb, climb, glumly,
Worsted, worsted, crumbly, dumbly,
   Conquer, conquest, vase, phase, fan,
   Wan, sedan and artisan.

The th will surely trouble you
More than r, ch or w.
   Say then these phonetic gems:
   Thomas, thyme, Theresa, Thames.

Thompson, Chatham, Waltham, Streatham,
There are more but I forget 'em-
   Wait! I've got it: Anthony,
   Lighten your anxiety.

The archaic word albeit
Does not rhyme with eight-you see it;
   With and forthwith, one has voice,
   One has not, you make your choice.

Shoes, goes, does *. Now first say: finger;
Then say: singer, ginger, linger.
   Real, zeal, mauve, gauze and gauge,
   Marriage, foliage, mirage, age,

Hero, heron, query, very,
Parry, tarry fury, bury,
   Dost, lost, post, and doth, cloth, loth,
   Job, Job, blossom, bosom, oath.

Faugh, oppugnant, keen oppugners,
Bowing, bowing, banjo-tuners
   Holm you know, but noes, canoes,
   Puisne, truism, use, to use?

Though the difference seems little,
We say actual, but victual,
   Seat, sweat, chaste, caste, Leigh, eight, height,
   Put, nut, granite, and unite.

Reefer does not rhyme with deafer,
Feoffer does, and zephyr, heifer.
   Dull, bull, Geoffrey, George, ate, late,
   Hint, pint, senate, but sedate.

Gaelic, Arabic, pacific,
Science, conscience, scientific;
   Tour, but our, dour, succour, four,
   Gas, alas, and Arkansas.

Say manoeuvre, yacht and vomit,
Next omit, which differs from it
   Bona fide, alibi
   Gyrate, dowry and awry.

Sea, idea, guinea, area,
Psalm, Maria, but malaria.
   Youth, south, southern, cleanse and clean,
   Doctrine, turpentine, marine.

Compare alien with Italian,
Dandelion with battalion,
   Rally with ally; yea, ye,
   Eye, I, ay, aye, whey, key, quay!

Say aver, but ever, fever,
Neither, leisure, skein, receiver.
   Never guess-it is not safe,
   We say calves, valves, half, but Ralf.

Starry, granary, canary,
Crevice, but device, and eyrie,
   Face, but preface, then grimace,
   Phlegm, phlegmatic, ass, glass, bass.

Bass, large, target, gin, give, verging,
Ought, oust, joust, and scour, but scourging;
   Ear, but earn; and ere and tear
   Do not rhyme with here but heir.

Mind the o of off and often
Which may be pronounced as orphan,
   With the sound of saw and sauce;
   Also soft, lost, cloth and cross.

Pudding, puddle, putting. Putting?
Yes: at golf it rhymes with shutting.
   Respite, spite, consent, resent.
   Liable, but Parliament.

Seven is right, but so is even,
Hyphen, roughen, nephew, Stephen,
   Monkey, donkey, clerk and jerk,
   Asp, grasp, wasp, demesne, cork, work.

A of valour, vapid vapour,
S of news (compare newspaper),
   G of gibbet, gibbon, gist,
   I of antichrist and grist,

Differ like diverse and divers,
Rivers, strivers, shivers, fivers.
   Once, but nonce, toll, doll, but roll,
   Polish, Polish, poll and poll.

Pronunciation-think of Psyche!-
Is a paling, stout and spiky.
   Won't it make you lose your wits
   Writing groats and saying "grits"?

It's a dark abyss or tunnel
Strewn with stones like rowlock, gunwale,
   Islington, and Isle of Wight,
   Housewife, verdict and indict.

Don't you think so, reader, rather,
Saying lather, bather, father?
   Finally, which rhymes with enough,
   Though, through, bough, cough, hough, sough, tough??

Hiccough has the sound of sup...
My advice is: GIVE IT UP!

MacOS parla e dice qualunque cosa, basta dare il comando giusto

2022-01-12
di Paolo Attivissimo
1 commento
chicche, MacOS, ReteTreRSI, sintesi vocale

Ultimo aggiornamento: 2022/01/12 22:30.

Avete mai provato a far dire cose strane o addirittura parolacce agli
assistenti vocali? Se l’avete fatto, o se avete seguito i miei podcast
recenti, avrete notato che si rifiutano.

Ma se una delle vostre aspirazioni
fondamentali nella vita è riuscire a convincere la compassatissima voce di un
computer a dire cosacce o ridicolaggini, o più seriamente vi serve una voce
neutra che legga un testo o un annuncio, ho una soluzione facile per voi.

È sufficiente avere un Mac e aprire una finestra di Terminale (Applicazioni – Utility – Terminale). Qui si digita say seguito dalla frase che volete far declamare alla
voce computerizzata. Tutto qui.

L’accento della voce è quello della lingua scelta per l’interfaccia di MacOS,
per cui preparatevi a letture bislacche se usate testi in lingue differenti.
Potete però andare nelle Preferenze di Sistema, nella sezione Accessibilità, e
scegliere altre voci, oppure scrivere il nome della voce che vi interessa dopo
il comando say.

Per sapere quali voci sono disponibili potete digitare
say -v ‘?’ (compreso il punto interrogativo fra apici). Questo è il risultato sul mio Mac:

In italiano, per esempio, potete scegliere Alice o Luca. In inglese ci sono vari accenti: Alex, Fred, Samantha e Victoria (US), Daniel (GB), Fiona (Scozia), Karen (Australia), Moira (Irlanda), Rishi e Veena (India), Tessa (Sud Africa), con vari livelli di qualità. Per esempio:

say -v Samantha Space, the final frontier. These are the voyages of the Starship Enterprise…

Il comando say ha moltissime altre opzioni, compresa quella di salvare su file: per richiamarle tutte basta
digitare man say.

Per esempio, per chiedere al Mac di leggere un file di testo si dà il comando

say -v [nome della voce] -f [nome del file]

Se si vuole salvare su file la lettura, il comando è

say -v [nome della voce] -f [nome del file] -o [nome del file audio AIFF da generare]

Buon divertimento.

Podcast del Disinformatico 2021/07/30: Perché i computer parlano… come computer? Breve storia della sintesi vocale

2021-07-302026-07-24
di Paolo Attivissimo
archeoinformatica, Importato da Blogspot, podcast, PodcastRSI, ReteTreRSI, sintesi vocale

Ultimo aggiornamento: 2026/07/24.

È disponibile subito il podcast di oggi, 30 luglio 2021, de Il Disinformatico della Rete Tre della Radiotelevisione Svizzera, condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e nell’embed che segue. Questa è l’edizione estiva, dedicata a un singolo argomento.

I podcast del Disinformatico di Rete Tre sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo e i link alle fonti della storia di oggi, sono qui sotto!

Nota: la parola CLIP nel testo che segue non è un segnaposto in attesa che io inserisca dei contenuti. Indica semplicemente che in quel punto del podcast c’è uno spezzone audio. Se volete sentirlo, ascoltate il podcast oppure guardate il video che ho incluso nella trascrizione.

Correzione: Nel podcast ho detto che la voce di HAL in inglese era di Claude Rains, ma mi sono maldestramente sbagliato: era di Douglas Rain (Claude Rains era l’interprete del classico L’uomo invisibile del 1933). Ho corretto nel testo qui sotto. Grazie a chi mi ha segnalato lo sbaglio nei commenti. Mi scuso per l’errore.

[CLIP: HAL]

È una delle scene più celebri e raggelanti del film di Stanley Kubrick 2001: Odissea nello spazio. A bordo dell’astronave Discovery, in viaggio verso il pianeta Giove, il supercomputer HAL 9000 chiude inesorabilmente le comunicazioni con l’unico astronauta sopravvissuto, David Bowman. Gli altri membri dell’equipaggio sono stati uccisi proprio da HAL.

Oggi l’idea di comunicare a voce con un computer ci sembra ovvia e banale, grazie agli assistenti vocali, ma all’epoca in cui Kubrick girò questo capolavoro della fantascienza, mezzo secolo fa, era appunto un concetto da fantascienza. I computer, anzi i calcolatori di quell’epoca, enormi e costosissimi, comunicavano solitamente stampando i propri messaggi o mostrandoli su un monitor. Farli parlare sembrava impensabile.

Questa è la storia di come abbiamo insegnato ai computer a parlare con naturalezza. Ora che ci siamo riusciti, saremo capaci anche di farli smettere?

La tecnica che consente di riprodurre artificialmente la voce umana si chiama sintesi vocale. Non è particolarmente nuova: uno dei primissimi esempi di sintesi vocale elettrica è VODER, che risale addirittura al 1939. Sì, avete capito bene: all’inizio della Seconda Guerra Mondiale c’erano già voci sintetiche. Ecco VODER che tenta a fatica di dire OK e simulare una risata.

[CLIP: VODER]

La demo, ben più lunga, dalla quale ho tratto solo l’“OK” e la “risata”.

Certo, VODER non era un granché; le sue parole erano quasi incomprensibili, e serviva il lavoro di un operatore umano per fargliele generare. Ma stabiliva e dimostrava un principio importantissimo: era possibile creare una voce umana artificiale.

Una ventina d’anni più tardi, nel 1961, John Larry Kelly Jr e Carol Lockbaum, del centro di ricerca statunitense Bell Labs, usarono un computer IBM 7094 per sintetizzare una voce umana un po’ più intellegibile, che addirittura cantava:

[CLIP: Daisy 1961]

Questa dimostrazione, che oggi fa sorridere per quanto è primitiva, ebbe però all’epoca un effetto sensazionale e colpì in particolare un certo amico di John Larry Kelly: lo scrittore di fantascienza Arthur C. Clarke, coautore insieme a Stanley Kubrick della sceneggiatura di 2001: Odissea nello spazio. Nel film c’è una celebre scena in cui HAL viene disattivato progressivamente dall’astronauta sopravvissuto. Nell’edizione italiana, HAL canta Giro giro tondo.

[CLIP: HAL canta in italiano]

Ma nella versione originale del film il computer canta un’altra canzone:

[CLIP: HAL canta in inglese]

Sì, è la stessa melodia, intitolata Daisy Bell, usata in quella storica demo informatica di sintesi vocale del 1961: una citazione nascosta e discreta, voluta da Arthur Clarke, che purtroppo si è persa nel doppiaggio.

Nel film, fra l’altro, non furono usate voci sintetiche per il computer: in originale la voce di HAL fu recitata dall’attore Douglas Rain, mentre in italiano fu creata dall’attore e doppiatore Gianfranco Bellini.

La cadenza fredda e inumana della voce di HAL, e in generale delle voci robotiche e sintetiche usate in tanti film e telefilm classici di fantascienza, è basata sul fatto che all’epoca la sintesi vocale reale era proprio così: incapace di rappresentare tutte le sfumature ed emozioni di una voce umana.

Per poterlo fare, un computer doveva prima di tutto imparare a leggere ad alta voce automaticamente qualunque testo, senza l’aiuto caso per caso di un operatore umano come in passato. Questo è il cosiddetto text-to-speech, ossia “dal testo al parlato”, il cui primo esempio fu creato da Noriko Umeda in Giappone nel 1968.

Pochi anni dopo, nel 1976, Raymond Kurzweil presentò una delle prime applicazioni pratiche di queste ricerche: un assistente di lettura per ciechi e ipovedenti. In questi dispositivi, uno scanner riconosceva le lettere stampate nei libri e generava i suoni vocali corrispondenti, permettendo quindi la lettura di qualunque testo comune anche a chi normalmente era escluso da questa possibilità. Era un sistema molto costoso e ingombrante, che potevano permettersi solo alcune biblioteche, ma era un inizio.

La prima sintesi vocale in italiano si chiamava MUSA e nacque nel 1975 presso i laboratori CSELT.

[CLIP: Musa]

Anche in questo caso non manca la dimostrazione di… talento canoro, che per MUSA arrivò tre anni più tardi, ma arrivò:

[CLIP: musa-framartino]

Pochi anni dopo arrivarono i sistemi di sintesi vocale portatili, integrati in personal computer come i Macintosh e gli Amiga, ridando la possibilità di parlare a chi l’aveva persa a seguito di trauma o malattia, come il celebre fisico britannico Stephen Hawking, la cui voce sintetica divenne il suo marchio caratteristico, anche se in realtà gli dava un accento fortemente americano perché era basata sui campioni della voce di uno dei pionieri del settore, Dennis Klatt.

[CLIP: Hawking]

La sintesi vocale, insomma, arriva da molto lontano nel tempo, ma avrete notato che tutti questi esempi hanno un difetto: sono a malapena comprensibili, oltre che privi di cadenza, naturalezza ed emozione. Funzionano, sono utili, ma non sono certo piacevoli da usare.

Confrontate questi campioni del passato con una sintesi vocale odierna, quella di Siri di Apple:

[CLIP: Siri risponde alla richiesta “Cantami una canzone”]

Non è perfetta, ma è molto più chiara e naturale. Cosa è cambiato? Fondamentalmente tre cose: la potenza di calcolo, la quantità di memoria, e un trucco.

I suoni di base di una lingua, i cosiddetti fonemi, sono relativamente pochi, una cinquantina in italiano, ma non basta generarli in sequenza in una sorta di collage di pezzetti: nel linguaggio naturale, infatti, vengono pronunciati in modo differente all’inizio o alla fine di una parola, dopo una pausa, o in una domanda, o per sottolineare un concetto.

Per una sintesi vocale naturale serve quindi un archivio enorme di tutti questi suoni elementari nelle varie situazioni, e questo archivio richiede tanta memoria digitale. Serve poi anche una grande potenza di calcolo per scegliere rapidissimamente, istante per istante e caso per caso, quale campione vocale usare.

Il problema è generare questi archivi: occorre prendere una persona che abbia la voce giusta e farle registrare decine di ore di parlato di tutti i generi, da cui estrarre poi i vari campioni. In altre parole, mentre i sistemi di sintesi vocale del passato cercavano di generare i suoni da zero, quelli di oggi “barano”, per così dire, prendendo dei suoni umani reali e poi scomponendoli e riassemblandoli. E c’è anche un altro trucco: le frasi ed espressioni più ricorrenti sono preregistrate in blocco.

[CLIP: Siri risponde alla richiesta “Dimmi uno scioglilingua”]

La prossima frontiera della sintesi vocale è il deepfake sonoro: l’imitazione perfetta, indistinguibile dall’originale, della voce di una specifica persona. Per ottenerla servono tantissimi campioni della voce da imitare: ma se si tratta di una celebrità o di una persona che parla spesso in pubblico, questo non è difficile.

La novità è che come per i deepfake visivi, che permettono di creare videoclip molto realistici nei quali il volto di una persona viene sostituito con quello di un altro, il lavoro di selezione e montaggio dei campioni di suono viene fatto automaticamente dal software, che funziona su un comune computer domestico.

Questo vuol dire che sta diventando sempre più facile creare duplicati perfetti della voce di qualcuno, e che quindi non potremo più fidarci di quello che sentiamo se non abbiamo davanti a noi in carne e ossa la persona che sta parlando.

Non è teoria: a maggio del 2021 è stato segnalato un caso di tentato crimine informatico messo a segno usando la sintesi vocale. I criminali hanno imitato al telefono la voce di un direttore d’azienda e gli hanno fatto dire di effettuare un pagamento di 243.000 dollari per chiudere una trattativa con un cliente. L’assistente si è fidato perché ha creduto di riconoscere la voce del suo direttore.

È una frontiera inquietante. Fra l’altro, probabilmente non ve ne siete accorti, ma in realtà una frase di questo podcast non l’ho pronunciata io, ma uno di questi generatori di deepfake vocali.

No, non è vero. Almeno per ora. Ma vi è venuto un brivido, vero?

Fonti aggiuntive: Wired.com; Aalto.fi (i campioni sonori citati sono in questo video); Wikipedia; McGill.ca.

Voci simulate con Lyrebird

2017-04-28
di Paolo Attivissimo
autenticazione, ReteTreRSI, sintesi vocale

Quelle che potete sentire qui su Lyrebird.ai o qui sotto non sono le classiche voci-parodia di personaggi famosi (in questo caso Barack Obama, Donald Trump e Hillary Clinton), generate rimontando ad arte dei pezzi di loro frasi effettivamente pronunciate: sono completamente sintetiche. A Lyrebird basta anche un solo minuto di voce registrata per creare una copia che imita tutte le caratteristiche identificative di una persona. Da questa copia è possibile generare qualunque frase.

Le implicazioni di autenticazione e di identità di un servizio del genere sono impressionanti. Di questo passo non potremo più fidarci di una voce sentita al telefono, per esempio, i sistemi di autenticazione basati sul riconoscimento del timbro di voce saranno inattendibili e potremmo trovarci presto a conversare con dei chatbot che fingono di essere la persona con la quale vorremmo parlare (Be Right Back di Black Mirror si avvera sempre più, insomma); per contro, i contratti fatti per telefono potrebbero non essere più legali (il venditore potrebbe aver creato la mia voce) e potremmo anche sentire i film doppiati con le voci degli attori originali che miracolosamente parlano la nostra lingua.