Intelligenza artificiale per il riconoscimento di voci in ambienti rumorosi: Whisper

Il riconoscimento vocale oggigiorno funziona piuttosto bene quando la voce è
scandita chiaramente e non c’è rumore di sottofondo, ma fallisce miseramente se chi
parla si mangia un po’ le parole, ha un accento molto marcato oppure si trova in
un ambiente rumoroso. Se poi si tratta di una voce che canta, accompagnata e
magari coperta da tanti strumenti, non c’è niente da fare.

Ma pochi giorni fa la società OpenAI, già nota per altri prodotti di intelligenza
artificiale di cui ho parlato in questo blog, come DALL-E per la generazione
di immagini, ha rilasciato
Whisper, che è un software di
intelligenza artificiale capace di superare queste limitazioni, diventando
abile quanto una persona nel decifrare le parole di una conversazione anche in
contesti rumorosi.

Per esempio, Whisper è in grado di riconoscere le parole pronunciate in varie
lingue, dette a grandissima velocità e registrate con bassa qualità, cantate
in una canzone K-Pop o dette con un forte accento, come negli esempi che
trovate sul sito di Whisper.

L’azienda ha addestrato Whisper alimentandolo con 680.000 ore di audio
abbinato alle trascrizioni corrispondenti in 98 lingue differenti. Oltre a
riconoscere il parlato in condizioni difficili, è anche in grado di fornirne
una traduzione in inglese abbastanza dignitosa.

Whisper è stato rilasciato come prodotto open source, libero e
gratuito, per cui chiunque lo può scaricare e installare liberamente e lo può
anche modificare. Richiede un computer piuttosto potente, e i suoi creatori
avvisano che il modo in cui Whisper analizza il parlato può a volte fargli
“riconoscere” parole che in realtà non ci sono, per cui è sempre necessaria
una revisione attenta da parte di una persona. Ma lo sviluppo esplosivo di questi
software di intelligenza artificiale dovrebbe far riflettere molto
attentamente chiunque faccia trascrizioni per lavoro. Forse dovrà cominciare a
pensare a come riorganizzare il proprio lavoro per diventare revisore
esperto anziché dattilografo.

Ci sono anche implicazioni più profonde e rivoluzionarie, che è necessario
considerare ogni volta che un procedimento che prima era oneroso diventa
semplice e automatizzato: se diventa possibile trascrivere enormi quantità di
parlato a costo praticamente nullo e il costo dei supporti di registrazione è
altrettanto trascurabile, diventa possibile per esempio automatizzare la sorveglianza di
massa.

Diventa possibile registrare l’audio di tutte le
telefonate di un intero paese e trascriverle tutte integralmente, per poi
cercare eventuali nomi o parole di interesse o per riconoscere le singole
voci, anche a distanza di tempo. C’è chi sospetta che alcuni governi abbiano
già questo tipo di capacità, ma con Whisper potrebbe averle anche uno
staterello relativamente squattrinato.

Pensando ad applicazioni meno controverse, invece, un riconoscimento vocale
automatizzato con le capacità di Whisper permetterebbe di trasformare in
testo, a costi ben più abbordabili di quelli attuali, gli enormi archivi dei
programmi radiofonici e televisivi storici e renderli accessibili anche a chi
ha difficoltà di udito oltre che ai linguisti, agli storici o a chiunque abbia
semplicemente il desiderio di ritrovare una battuta o una dichiarazione fatta
da qualcuno magari qualche decennio fa.

E queste sono solo le possibilità che vengono in mente adesso; chissà quali
verranno inventate quando questa tecnologia sarà diventata normale.

Fonti aggiuntive:
Ars Technica,
Slashdot.