Vai al contenuto
Intelligenza artificiale per il riconoscimento di voci in ambienti rumorosi: Whisper

Intelligenza artificiale per il riconoscimento di voci in ambienti rumorosi: Whisper

Il riconoscimento vocale oggigiorno funziona piuttosto bene quando la voce è
scandita chiaramente e non c’è rumore di sottofondo, ma fallisce miseramente se chi
parla si mangia un po’ le parole, ha un accento molto marcato oppure si trova in
un ambiente rumoroso. Se poi si tratta di una voce che canta, accompagnata e
magari coperta da tanti strumenti, non c’è niente da fare.

Ma pochi giorni fa la società OpenAI, già nota per altri prodotti di intelligenza
artificiale di cui ho parlato in questo blog, come DALL-E per la generazione
di immagini, ha rilasciato
Whisper, che è un software di
intelligenza artificiale capace di superare queste limitazioni, diventando
abile quanto una persona nel decifrare le parole di una conversazione anche in
contesti rumorosi.

Per esempio, Whisper è in grado di riconoscere le parole pronunciate in varie
lingue, dette a grandissima velocità e registrate con bassa qualità, cantate
in una canzone K-Pop o dette con un forte accento, come negli esempi che
trovate sul sito di Whisper.

L’azienda ha addestrato Whisper alimentandolo con 680.000 ore di audio
abbinato alle trascrizioni corrispondenti in 98 lingue differenti. Oltre a
riconoscere il parlato in condizioni difficili, è anche in grado di fornirne
una traduzione in inglese abbastanza dignitosa.

Whisper è stato rilasciato come prodotto open source, libero e
gratuito, per cui chiunque lo può scaricare e installare liberamente e lo può
anche modificare. Richiede un computer piuttosto potente, e i suoi creatori
avvisano che il modo in cui Whisper analizza il parlato può a volte fargli
“riconoscere” parole che in realtà non ci sono, per cui è sempre necessaria
una revisione attenta da parte di una persona. Ma lo sviluppo esplosivo di questi
software di intelligenza artificiale dovrebbe far riflettere molto
attentamente chiunque faccia trascrizioni per lavoro. Forse dovrà cominciare a
pensare a come riorganizzare il proprio lavoro per diventare revisore
esperto anziché dattilografo.

Ci sono anche implicazioni più profonde e rivoluzionarie, che è necessario
considerare ogni volta che un procedimento che prima era oneroso diventa
semplice e automatizzato: se diventa possibile trascrivere enormi quantità di
parlato a costo praticamente nullo e il costo dei supporti di registrazione è
altrettanto trascurabile, diventa possibile per esempio automatizzare la sorveglianza di
massa.

Diventa possibile registrare l’audio di tutte le
telefonate di un intero paese e trascriverle tutte integralmente, per poi
cercare eventuali nomi o parole di interesse o per riconoscere le singole
voci, anche a distanza di tempo. C’è chi sospetta che alcuni governi abbiano
già questo tipo di capacità, ma con Whisper potrebbe averle anche uno
staterello relativamente squattrinato.

Pensando ad applicazioni meno controverse, invece, un riconoscimento vocale
automatizzato con le capacità di Whisper permetterebbe di trasformare in
testo, a costi ben più abbordabili di quelli attuali, gli enormi archivi dei
programmi radiofonici e televisivi storici e renderli accessibili anche a chi
ha difficoltà di udito oltre che ai linguisti, agli storici o a chiunque abbia
semplicemente il desiderio di ritrovare una battuta o una dichiarazione fatta
da qualcuno magari qualche decennio fa.

E queste sono solo le possibilità che vengono in mente adesso; chissà quali
verranno inventate quando questa tecnologia sarà diventata normale.

 

Fonti aggiuntive:
Ars Technica,
Slashdot.

Alexa fa parlare i morti

Alexa fa parlare i morti

Questo articolo è disponibile anche in versione podcast audio.

C’è una puntata della celebre serie distopica Black Mirror, intitolata
Be Right Back
(Torna da me nella versione italiana), nella quale una donna subisce la
perdita drammatica del proprio partner in un incidente.

Al funerale, un’amica le parla di un servizio online che raccoglie tutte le
informazioni pubblicate sui social network dal defunto e tutti i suoi messaggi
vocali e video e da lì crea un avatar che sullo schermo dello smartphone parla
esattamente come lui e ha il suo stesso aspetto. 

Inizialmente inorridita, la donna rifiuta, ma poi… succedono cose che non
racconto per non guastare la storia a chi non ha ancora visto questa puntata.

Dovrebbe essere chiaro a tutti che le storie di Black Mirror sono
esempi di cosa non
fare con la tecnologia, ma a quanto pare qualcuno ad Amazon ha scambiato
questa serie per un manuale di istruzioni.

Pochi giorni fa, infatti, Rohit Prasad, capo ricercatore dell’intelligenza
artificiale di Alexa, il celebre assistente vocale di Amazon, ha presentato in
una conferenza pubblica una versione di Alexa che è in grado di imitare le
voci delle persone, e l’esempio che fa sembra proprio preso di peso da
Black Mirror.

“In questi tempi di pandemia perdurante” dice
“così tanti di noi hanno perduto qualcuno che amiamo. Anche se
l’intelligenza artificiale non può eliminare quel dolore della perdita, può
certamente far durare i loro ricordi.”

A questo punto Prasad mostra un video nel quale un giovane ragazzo chiede ad
Alexa di fare in modo che la nonna, che non c’è più, gli finisca di leggere
Il Mago di Oz.

Alexa risponde “OK” con la sua solita voce, ma poi cambia tono e recita
con la voce della nonna del ragazzo.

Il video è già posizionato al momento giusto, a 1:02:38.

Già così la cosa può evocare sentimenti contrastanti, ma quello che dice poi
Prasad è ancora più inquietante: la voce della nonna è stata ricreata partendo
da meno di un minuto di una sua conversazione. Non servono più ampi e
lunghi campioni di voce registrati accuratamente in uno studio.

Si potrebbe discutere sull’impatto emotivo di questa nuova tecnologia e
chiedersi se sentire per casa la voce di una persona amata che non c’è più,
ricreata artificialmente da un programma, sia davvero una consolazione o una
forma di prolugamento del dolore. Ma c’è una questione molto più concreta, che
va affrontata subito, mentre questa capacità di imitazione non è ancora
disponibile al pubblico: se è possibile imitare facilmente la voce di una
persona in questo modo per ricrearne la presenza, allora è possibile farlo,
per esempio, anche per sbloccare il suo smartphone bloccato dal riconoscimento
vocale o per scavalcare le cosiddette password vocali usate da alcune banche e
persino dal Fisco britannico, che fino a pochi anni fa
chiedeva
ai contribuenti di identificarsi al telefono dicendo la frase
“my voice is my password”, ossia
“la mia voce è la mia password”.

No, non funziona così. Se la tua voce la possono imitare tutti, la tua
password è di tutti.

Il problema è che Amazon non è l’unica azienda in grado di replicare
realisticamente la voce di una persona specifica, la potenza di calcolo e il
campione audio necessari diventano sempre più piccoli, e non sembra esserci
alcun modo di impedire a malintenzionati di registrare la nostra voce. 

Forse è il caso di cominciare a smettere di usare sistemi di sicurezza basati
sul riconoscimento vocale. E magari di passare del tempo a chiacchierare con
la nonna, finché si può. 

Fonti aggiuntive:
Graham Cluley,
Ars Technica,
The Register.

Alexa, riconoscimento vocale offline in arrivo

Alexa, riconoscimento vocale offline in arrivo

Mentre mancano prove di un ascolto generalizzato delle nostre conversazioni da parte degli smartphone, sappiamo invece con certezza che parte delle nostre conversazioni viene carpita dagli assistenti vocali, come Alexa, Cortana, Siri o l’Assistente Google. 

Il funzionamento di questi assistenti vocali, infatti, prevede esplicitamente che vengano registrati e trasmessi alle rispettive case produttrici tutti i suoni ambientali captati dai loro microfoni appena prima e appena dopo che è stata pronunciata la wake word o parola di attivazione (“Alexa” o “OK, Google”, eccetera): i comandi, infatti, vengono interpretati dai computer remoti di queste case produttrici, non dal dispositivo locale.

A volte questi assistenti credono di aver sentito la wake word quando in realtà è stato detto qualcos’altro e quindi può capitare che prendano degli spezzoni di conversazione privata e li mandino a Google, Amazon, Microsoft o Apple, dove possono essere archiviati e ascoltati da alcuni dipendenti di queste aziende (se la cosa non vi piace, potete chiedere l’eliminazione delle registrazioni). Ma a parte questi incidenti, non effettuano intercettazioni generalizzate e di massa.

Anche così, comprensibilmente molti utenti non vogliono correre il rischio di avere orecchie indiscrete in casa, per esempio nei momenti intimi o durante incontri professionali confidenziali, per cui rifiutano di installare Alexa e simili in casa o in ufficio. 

Però un assistente vocale è spesso molto comodo. I problemi di riservatezza e sorveglianza sparirebbero ce ne fosse uno che fa il riconoscimento vocale in locale, senza mandare spezzoni della nostra voce a nessuno e cancellandoli automaticamente dal dispositivo dopo che sono stati usati. Amazon ha presentato proprio questa possibilità pochi giorni fa: sarà disponibile “prossimamente”, perlomeno per gli utenti statunitensi (video, a 00:4:50).

Purtroppo questa opzione riguarda soltanto i dispositivi più recenti di Amazon, dotati di processore AZ1 Neural Edge e quindi è disponibile soltanto sugli Echo di quarta generazione, sull’Echo Show 10 e sui dispositivi futuri. Non sarà disponibile sui dispositivi precedenti.

È comunque un buon segno: la privacy aumenta e in più i tempi di risposta diventano più brevi grazie al fatto che il riconoscimento dei comandi avviene localmente invece di dover registrare la voce e mandarla via Internet a computer remoti che poi restituiscono l’azione corrispondente.

Fonti aggiuntive: The Verge, Engadget.

Perché la guida autonoma è così difficile: la bufala del riconoscimento di schemi spacciato per “intelligenza”

Perché la guida autonoma è così difficile: la bufala del riconoscimento di schemi spacciato per “intelligenza”

Ultimo aggiornamento: 2021/11/12 1:40.

Vado subito al sodo per chi ha fretta. Faccio tre asserzioni-scommessa:

  • Il machine learning è semplicemente un riconoscimento di schemi (pattern recognition) e non costituisce “intelligenza” in alcun senso significativo della
    parola.
  • Il riconoscimento di schemi fallisce in maniera profondamente non umana e in
    situazioni che un umano invece sa riconoscere in maniera assolutamente
    banale. Questo rende difficilissimo prevedere e gestire i fallimenti del
    machine learning e quindi rende pericolosa la collaborazione umano-macchina.
  • Qualunque sistema di guida autonoma o assistita basato esclusivamente sul
    riconoscimento degli schemi è destinato a fallire in maniera imbarazzante e
    potenzialmente catastrofica.

Sono asserzioni molto forti, e le faccio sapendo di non essere un esperto di
questi settori ma semplicemente un loro osservatore con un pizzico di
esperienza personale: se vi fidate di me, lo fate a vostro rischio e pericolo,
e sono disposto a cambiare idea di fronte a smentite documentate (e francamente sarei contento di perdere questa scommessa). Però temo
che ignorare queste riflessioni possa essere un grosso pericolo per molti. 

Premetto inoltre che non sto dicendo che l’intelligenza artificiale è una bufala, ma che il machine learning viene spesso spacciato per “intelligenza”. E prima di criticare, vi chiedo di leggere attentamente le parole che ho scelto con cura nel formulare le mie asserzioni-scommessa.

Provo a spiegare cosa mi ha portato a queste conclusioni provvisorie.

Prima di tutto riassumo cosa si intende per
machine learning: in estrema sintesi, si danno in pasto a un software tantissimi esempi di una
cosa, tantissimi esempi di cose differenti (ossia che non sono quella cosa) e
lo si “premia” quando riconosce correttamente la cosa in questione. Questo
apprendimento automatico può raggiungere livelli di affidabilità altissimi e
in molti casi funziona egregiamente. Il riconoscimento ottico dei caratteri
(OCR) e il riconoscimento vocale sono esempi di grande successo del
machine learning.

Ma si può dire che un sistema di OCR sia intelligente? Capisce che sta
leggendo un sonetto di Shakespeare o una mail di spam, e può quindi adeguarsi di
conseguenza? È in grado di considerare il contesto e capire che
magnifica e magni fica sono due letture molto differenti e
potenzialmente imbarazzanti, ma che la seconda potrebbe essere valida se lo
scrivente si esprime in romanesco? Un lettore realmente intelligente lo
capirebbe dal contesto (e dalla sua conoscenza delle attività sessuali umane). Un OCR no. Non è intelligente, perché non ha
conoscenza del mondo reale, ma conosce soltanto delle forme (le lettere) e
assegna loro una probabilità di corrispondere a uno dei modelli che conosce.
Non sa nulla del loro significato e quindi non può correggersi di conseguenza.
E non importa quanti miliardi di campioni di lettere o di parole gli dai: non
acquisirà mai la comprensione del testo.

Ogni tanto questi sistemi di riconoscimento sbagliano, ma non è un problema.
Se un sistema di OCR “legge” una parola al posto di un’altra non muore
nessuno. Se Alexa crede che l’abbiate chiamata, quando invece stavate pronunciando il
nome della vostra spasimata Alessia durante un momento di passione, il peggio
che può succedere è che la registrazione del vostro amplesso finisca nel
cloud di Amazon e venga scambiata fra i dipendenti dell’azienda che
fanno il monitoraggio dei campioni audio. Imbarazzante, ma probabilmente non
letale.

La ragazza che si chiama Alessia è un cosiddetto
edge case: un caso limite, una situazione rara che però fa sbagliare il sistema di
riconoscimento.

Questi sbagli avvengono in modi strani perché l’addestratore umano, quello che
insegna al software a riconoscere una forma, non riesce a calarsi nella
“visione del mondo” che ha quel software e non riesce ad anticipare tutti i
modi possibili nei quali potrebbe prendere un granchio e a insegnargli a
riconoscere tutti questi casi limite. 

Lo spiega benissimo uno che di queste cose ne capisce a pacchi, Andrej
Karpathy, direttore del reparto di intelligenza artificiale di Tesla, in
questa lezione magistrale
del 2018, quando mostra queste immagini:

Quante auto sono? Una, quattro o due?
Come si possono annotare (identificare per il software) le linee di corsia
quando fanno così?

Altri due esempi fra tanti: un’auto caricata a coda in avanti su una bisarca è un’auto in contromano?

Credit: Roman Babakin / Shutterstock (fonte).

Una bici montata di traverso sul retro di un’auto è una bici che mi sta
tagliando la strada e devo quindi frenare?

Dal
Tesla Autonomy Day
(2019) a 2:06:25.

Di recente su Reddit è stato pubblicato un bell’esempio di questi
edge case: un camion ha dei cartelli di stop dipinti sul portellone
posteriore, e il sistema di riconoscimento ottico dei cartelli di una Tesla li
etichetta e li mostra come se fossero cartelli reali.

Cosa succede se il sistema di decisione dell’auto ritiene che quei cartelli
siano reali e quindi inchioda in mezzo alla strada, creando la situazione
perfetta per un tamponamento a catena? Ìl sistema è sufficientemente
sofisticato da tenere conto del contesto e quindi “sa” che i cartelli stradali
normalmente non si muovono lungo le strade, per cui rigetta il riconoscimento
e lo ignora nelle sue decisioni di guida?

Un conducente umano, avendo conoscenza del mondo, non avrebbe la minima
esitazione: sono cartelli dipinti sul retro di un camion, li posso
tranquillamente ignorare. Un sistema di guida autonoma o assistita sarà
altrettanto consapevole? E il conducente saprà anticipare questi possibili
errori che lui non farebbe mai?

Beh, direte voi, dai, una cosa del genere sarà un caso raro. Poi succede
questo:

Una Tesla Model 3 viaggia a 130 km/h e mostra un flusso costante di semafori
che appaiono dal nulla sulla corsia del conducente. 

Un essere umano sa in un millisecondo che questo è impossibile, perché ha conoscenza del mondo e sa che i semafori non volano e non compaiono dal nulla; il sistema di
guida assistita di Tesla no, perché non “sa” realmente che cosa sono i
semafori nel mondo reale e quindi non “sa” che non possono apparire dal nulla
a 130 km/h.

Che cosa ha causato questo clamoroso errore di riconoscimento?
Un camion che trasportava semafori
.

Eh dai, ma i semafori erano spenti, obietterete voi. Poi succede
questo:

Questo è esattamente il tipo di errore che un conducente umano non farebbe mai
e che invece un sistema di guida basato esclusivamente sul
riconoscimento delle immagini farà, e farà in circostanze imprevedibili. Con
conseguenze potenzialmente mortali. Se state valutando un’auto dotata di
questi sistemi, pensateci bene. Se ne avete una, pensateci ancora di più.

Certo, gli umani commettono altri tipi di errori, per cui alla fine
l’obiettivo non è creare un sistema di guida assolutamente infallibile, ma
semplicemente uno che fallisca mediamente meno (ossia causi meno incidenti)
della media dei conducenti umani.

Tutto questo vuol dire che la guida autonoma basata sul riconoscimento puro
degli schemi è impossibile? No. Una soluzione potrebbe essere semplificare l’ambiente operativo (strade su misura, rigidamente normate, accessibili solo a veicoli autonomi/assistiti). Per esempio, un ascensore (che in sostanza è un treno verticale in una galleria verticale chiusa) è un sistema di “guida autonoma” affidabilissimo, che richiede pochissima “intelligenza” grazie a un ambiente operativo ipersemplificato.

Allo stesso tempo, va notato che ci sono esempi di sistemi che interagiscono egregiamente con un ambiente operativo complesso pur avendo una “intelligenza” molto limitata: le api. Con un solo milione di neuroni riescono a navigare, interagire con i fiori, comunicare con le altre api, gestire gli aggressori e avere una società complessa e organizzata (hanno persino delle “votazioni”). Noi abbiamo cento miliardi di neuroni (centomila cervelli d’ape) a testa e non riusciamo a capire come indossare una mascherina o perché. Chiaramente c’è un margine di ottimizzazione che le api sfruttano e noi no, ma è anche vero che un’ape va in crisi quando incontra l’edge case di una cosa che non esiste in natura, tipo una barriera trasparente (il vetro di una finestra).

È anche possibile che estendendo il concetto di
riconoscimento degli schemi all’asse del tempo (ossia imparando a riconoscere
come cambia un oggetto nel corso del tempo) ed estendendo il concetto di
schema a oggetti complessi (incroci, rotatorie, attraversamenti pedonali) si
riesca a ottenere risultati accettabili. Ma questo richiede un database di
esempi colossale, una classificazione vastissima e una potenza di calcolo
ancora più colossale. Nessuno dei sistemi attualmente in commercio ci si
avvicina, come spiega bene Filip Piekniewski. Siate prudenti.

Questo articolo vi arriva gratuitamente e senza pubblicità grazie alle
donazioni dei lettori. Se vi è piaciuto, potete incoraggiarmi a scrivere
ancora facendo una donazione anche voi, tramite Paypal (paypal.me/disinformatico) o
altri metodi.

Perché i computer sono stupidi?

Perché i computer sono stupidi?

Si fa un gran parlare di intelligenza artificiale: computer che
riconoscono la voce, come Siri o Alexa o OK Google, giocano a scacchi meglio
degli esseri umani, identificano ed evitano ostacoli nella guida autonoma o
assistita, con tempi di reazione fulminei e irraggiungibili per una persona. È
facile pensare che siamo ormai vicini alla creazione di una vera intelligenza
sintetica generalista, capace di competere con un essere umano.

Ma l’informatico statunitense Terry Winograd ha ideato un test che dimostra
che non è affatto così. Il bello è che lo ha fatto nel
1972, e il suo test funziona ancora adesso. Non per nulla è diventato professore
d’informatica alla Stanford University ed è considerato uno dei massimi
esperti nel settore.

Il test di Winograd è beffardo, dal punto di vista degli informatici, per la
sua semplicità. Una delle sue formulazioni tipiche è questa:

Il trofeo non ci stava nella valigia marrone perché era troppo grande.

Una frase banale, con una struttura grammaticale semplice e parole
comunissime, perfettamente comprensibile. Talmente comprensibile e ovvia, per
noi umani, che neanche ci accorgiamo che è ambigua. Quale dei due oggetti era
troppo grande? Il trofeo o la valigia? Per noi la risposta è istantanea. Per
un computer, invece, no.

Infatti una semplice analisi meccanica della frase (“questo è un sostantivo, questo è un verbo”, eccetera) non consente di risolvere l’ambiguità. Per farlo bisogna sapere
che cos’è un trofeo, che cos’è una valigia, quali sono i normali rapporti di
dimensione fra trofei e valigie, che le valigie sono fatte per contenere
oggetti e i trofei no, e il fatto che se l’oggetto A deve stare dentro
l’oggetto B, non è un problema se l’oggetto B è molto più grande dell’oggetto
A: bisogna sapere che le cose piccole possono stare dentro le cose grandi ma non viceversa.

Non è neanche possibile usare uno dei trucchi preferiti dei sistemi di
intelligenza artificiale, ossia sfruttare un enorme corpus di testo e
un po’ di statistica per arrivare a una disambiguazione affidabile, o la
tecnica tipica degli assistenti vocali, ossia estrarre le singole parole
riconosciute e tirare a indovinare sul significato generale della frase. Serve
esperienza del mondo.

Il test di Winograd ha varie versioni, chiamate schemi, composte da due
frasi che sono differenti tra loro soltanto per una o due parole ma contengono
un’ambiguità che si risolve in due modi opposti. Risolverla non è possibile usando le regole della grammatica e della sintassi: richiede
conoscenza della realtà e ragionamento. Un computer che fosse capace di farlo
sarebbe, all’atto pratico, intelligente.

Questo è un esempio di schema di Winograd:

I consiglieri comunali rifiutarono il permesso ai manifestanti perché
temevano disordini

I consiglieri comunali rifiutarono il permesso ai manifestanti perché
istigavano disordini

Le persone interpretano la prima frase nel senso che sono i
consiglieri comunali a temere disordini; interpretano la seconda nel
senso che gli istigatori sono i manifestanti. Eppure le frasi sono strutturalmente identiche. Lo fanno perché sanno cosa sono i
consiglieri comunali e quali sono i loro compiti, e sanno che cosa sono le
manifestazioni e le loro possibili conseguenze.

Beh, direte voi, ma frasi ambigue come queste sono rare. Invece no: un gruppo
di ricercatori ne ha radunati
150 esempi, da usare come test d’intelligenza per computer. Frasi banalissime, come
“ho messo un libro pesante sul tavolo e si è rotto”. Persino GPT-2, uno
dei sistemi di intelligenza artificiale più moderni applicato al linguaggio,
va in crisi di fronte agli schemi di Winograd, come spiega bene Tom Scott in
questo video.

Potremmo risolvere il problema rivolgendoci ai computer in modo meno ambiguo?
È improbabile. Il guaio è, infatti, che siamo talmente abituati a usare
sottintesi basati sulla conoscenza del contesto che troveremmo estenuante
parlare o scrivere in maniera perfettamente non ambigua.

Questa necessità di avere contesto per capire e risolvere le ambiguità non è solo una questione linguistica: è un ostacolo per un settore delicatissimo come la guida autonoma.

Un’automobile che usi un sistema di puro riconoscimento delle immagini, per esempio, verrà confusa dall’immagine della bambina in mezzo alla strada che vedete all’inizio di questo articolo e probabilmente frenerà di colpo per non colpirla. Al sistema mancano il contesto temporale (la deduzione delle forme reali a partire dal modo in cui cambia l’aspetto nel corso del tempo, e alcuni costruttori ci stanno lavorando) e la conoscenza del comportamento dei bambini: due cose che consentono di capire che non ha senso che una bambina sia perfettamente immobile in quella posizione e che la forma della “bambina” cambia, man mano che ci si avvicina, in un modo che rivela senza dubbio che si tratta di un disegno applicato alla superficie stradale.

Senza dubbio, s’intende, se siete esseri umani. Forse servono strade disambiguate, percorsi semplificati e ben demarcati, che vengano incontro alle limitate capacità dei sistemi di guida autonoma attuali.

Chiarisco che qui non si tratta di rivendicare una superiorità innata e invalicabile dei cervelli biologici su quelli sintetici: non è la materia prima che fa la differenza, è la conoscenza associata agli oggetti che vengono elaborati. Noi l’abbiamo (la acquisiamo), ma le macchine no, perché non gliela diamo. Il giorno che sapremo insegnare a un computer questa conoscenza, avremo davvero macchine intelligenti.  

In sintesi: l’intelligenza artificiale fallisce in modi profondamente “inumani”. Dà l’illusione della comprensione. Questo rende particolarmente difficile prevedere i suoi errori e correggerli. Specialmente quando si è al volante. Ricordiamocene prima di affidarci a questi sistemi.

La Trascrizione Istantanea di Google elimina le barriere di comunicazione

La Trascrizione Istantanea di Google elimina le barriere di comunicazione

Ultimo aggiornamento: 2020/11/15 15:35. 

Immaginate di dover parlare con una persona che ha difficoltà di udito o è completamente sorda, oppure sta semplicemente dall’altra parte di un vetro e non vi può sentire.

Scrivere quello che volete dire e poi mostrarlo sarebbe fattibile ma molto lento; in molti casi non sarebbe praticabile. Non tutti conoscono le lingue dei segni.

Ma se aveste a disposizione uno strumento che trascrive per voi quello che state dicendo, mentre lo state dicendo, sarebbe molto più facile comunicare. Lo strumento ce l’avete: è un qualunque smartphone Android recente che supporti Android 5.0 o successivo. Vi manca solo l’app apposita, che è Trascrizione Istantanea (Live Transcribe) di Google.

L’app è in grado di riconoscere e trascrivere oltre 70 lingue, e lo fa con una velocità, precisione e fluidità impressionanti, con tanto di punteggiatura e riconoscimento di molti titoli di film, libri e canzoni e di nomi di persone famose.

È facilissima da usare: una volta installata, la si lancia quando serve e si sceglie la lingua da trascrivere, poi si gira lo schermo del telefonino verso chi deve leggere la trascrizione. Tutto qui.

Ho fatto una demo nella puntata del Disinformatico della Radiotelevisione Svizzera di oggi: la trovate a 42:30 nel video qui sotto.

L’interlocutore può rispondere a voce oppure digitando sullo smartphone in un’area separata dello schermo. È possibile scegliere le dimensioni dei caratteri in modo che quello che viene trascritto sia visibile anche da lontano o chi ha limitazioni della vista. L’audio delle conversazioni, dice Google, non viene conservato dall’azienda.

L’app è utile anche per avere una rapida trascrizione immediatamente disponibile di una lezione, di un’intervista o di un discorso, oppure per capire meglio il parlato di un film che non ha i sottotitoli in una lingua che si conosce ma che si fa fatica a seguire avendo solo l’audio.

La prossima versione, che verrà rilasciata a giugno, sarà anche in grado di descrivere sullo schermo i suoni captati: per esempio quelli di un cane che abbaia o di qualcuno che bussa alla porta. Sarà inoltre in grado di copiare e salvare il testo trascritto. Provatela: è spettacolare.

 

2020/11/15 15:35

Non ho trovato una funzione specifica per esportare le trascrizioni, ma si può salvare una trascrizione per tre giorni (nelle opzioni) e la si può selezionare tutta e poi copiaincollarla in una mail.

Fonti: Engadget, Android, Google.

Riconoscere le canzoni con Google, senza installare app

Riconoscere le canzoni con Google, senza installare app

Se vi capita di sentire una canzone alla radio o in giro e non sapete di che brano si tratti, ci sono da tempo applicazioni come Shazam, ma l’amico Paolo Amoroso segnala una chicca che evita di dover installare app dedicate: su Android si può usare l’app di Google.

 
È sufficiente avvicinare lo smartphone alla fonte della musica e poi toccare l’icona del microfono nella casella di ricerca di Google sullo smartphone. Questo attiva non solo il riconoscimento vocale convenzionale di Google ma fa comparire in basso un’opzione aggiuntiva: Che cos’è questo brano?
 
A questo punto si tocca l’icona della nota e Google si mette in ascolto del brano, per poi tentare di identificarlo. Non funziona sempre, ma è un trucchetto potenzialmente utile in caso di emergenza musicale.
Pirati che usano satelliti militari per comunicare e come ascoltarli

Pirati che usano satelliti militari per comunicare e come ascoltarli

Credit: @TrackerIss.

Fra le cose strane del 2020 probabilmente non vi aspettavate di trovare che esistono pirati che prendono il controllo di satelliti militari americani per comunicare abusivamente e che vengono intercettati tramite radio digitali software-defined e tradotti in tempo reale tramite Google Translate.

Questo è un uso decisamente creativo e originale delle risorse tecnologiche di Internet e del digitale in generale, mostrato da un consulente di sicurezza informatica e radioamatore noto su Twitter come @TrackerIss.

Come spiegato in questo video, incorporato qui sotto, esistono dei satelliti della Marina militare statunitense, denominati FLTSATCOM (Fleet Satellite Communications System), lanciati fra il 1978 e il 1989 in orbita geostazionaria e usati per le comunicazioni radio in UHF fra le navi, i sommergibili, gli aerei e le basi su terraferma della Marina USA, oltre che per la rete di comando presidenziale.

Questi satelliti non sono più in uso da parte dei militari da oltre un decennio, ma due di essi funzionano ancora ben oltre la loro data di scadenza operativa e soprattutto non hanno nessuna protezione di accesso: sono sostanzialmente dei ripetitori che ritrasmettono qualunque segnale radio venga inviato verso le loro antenne.

Di conseguenza, è facile usare una piccola antenna e un impianto radio a basso costo per inviare un messaggio tramite questi satelliti, che lo diffonderanno su un’area vastissima. Oggi questa tecnica illegale viene usata soprattutto in Brasile da migliaia di persone, dai camionisti ai criminali a chi vive in località molto isolate, per comunicare gratuitamente su grandi distanze, come racconta Wired.

Questi utenti abusivi sono localizzabili, ma le autorità locali non investono molte risorse nella repressione di questa attività illecita e quindi il sottobosco dei pirati satellitari prospera. Oggi è tecnicamente possibile non solo ascoltare queste conversazioni a migliaia di chilometri di distanza (anche in Europa), ma anche trascriverle e farsele tradurre almeno approssimativamente grazie alle radio SDR (con il software SDRSharp) combinate con il riconoscimento vocale di Google e con i servizi di traduzione automatica di questo motore di ricerca.

Ne potete sentire un campione nel video qui sopra da 3:18 in poi: l’audio è molto disturbato, ma si capisce che è una voce che parla in portoghese. Se conoscete questa lingua, potete provare a decifrare la conversazione. Buon ascolto.

Occhio allo scherzo per Xbox One con Kinect e console di gioco a comando vocale

A volte l’uso del riconoscimento vocale ha delle conseguenze inattese che possono essere usate per fare scherzi. Per esempio, nel video qui sotto un burlone ha scelto, per una sessione in gruppo di Call of Duty su Xbox, un nome utente un po’ insolito: Xbox Sign 0ut. Poi ha aspettato che qualcuno degli altri giocatori lo chiamasse per nome.

Indovinate cos’è successo.

L’elenco dei comandi vocali per Xbox One con Kinect è qui in inglese e in italiano. Sbizzarritevi, e occhio viceversa a non cascare nella trappola, se incontrate una giocatrice che si chiama Is Boss Disco Netty.

Amazon conferma che non cancella tutto quello che dite ad Alexa. Neanche se glielo chiedete

Amazon conferma che non cancella tutto quello che dite ad Alexa. Neanche se glielo chiedete

Alexa, l’assistente vocale di Amazon, non cancella tutte le cose che registra, neppure quando l’utente glielo chiede (con comandi come “Alexa, cancella quello che ho appena detto” oppure “Alexa, cancella tutto quello che ho detto oggi”).

Lo segnala Gizmodo, citando una lettera pubblica del vicepresidente per le politiche pubbliche di Amazon, Brian Huseman, che dice che le trascrizioni automatiche di quello che è stato detto dagli utenti non sempre vengono eliminate. Amazon, dice la lettera, può decidere di conservare questi dati nonostante le richieste di cancellazione delle registrazioni degli utenti se includono per esempio richieste di abbonamento, ordini di pizza, acquisti online, impostazioni di sveglie, o messaggi agli amici.

Huseman spiega che Amazon conserva queste trascrizioni perché, dice, “i clienti non vorrebbero e non si aspetterebbero che la cancellazione della registrazione vocale cancellasse anche i dati di contorno o impedisse ad Alexa di svolgere il compito richiesto.”

Meglio tenerne conto, se usate questo genere di dispositivo: separate i vostri ordini dalle altre cose che dite in casa, sperando che Amazon le archivi altrettanto separatamente e quindi cancelli eventuali conversazioni confidenziali captate dai sensibilissimi microfoni di Alexa.