Le allucinazioni di DeepL Translator (aggiornamento 2023/03/05)

Uno dei problemi principali delle intelligenze artificiali attuali ha un nome
tecnico molto specifico:
allucinazione. Vuol dire che questi software hanno la tendenza a inventarsi completamente i
risultati richiesti dagli utenti e farlo in maniera estremamente autorevole.
Sono dei contaballe dalla parlantina incrollabile.

Ho raccontato un
esempio con ChatGPT
pochi giorni fa: stavolta è il turno di
DeepL Translator, un servizio
di traduzione automatica basato sull’intelligenza artificiale. Mesi fa ho
aperto un account a pagamento per iniziare un test approfondito di questa
tecnologia, visto che (come molti di voi sanno già) lavoro da decenni nel
campo della traduzione di testi tecnici e questi software potrebbero essere
dei concorrenti pericolosi oppure degli assistenti preziosi.

La mia sperimentazione sta ancora andando avanti, per cui non posso ancora
dare un parere definitivo: per ora credo di poter dire con ragionevole
certezza che DeepL è un buon
ausilio per un traduttore esperto e già formato
che ne capisca i limiti e sia disposto a investirci molto tempo
per personalizzarlo (la versione Pro consente di generare glossari
specializzati per i vari tipi o argomenti di traduzione). Ma chiunque pensi
che i traduttori umani non servano più e che basti immettere un testo in DeepL
per ricavarne la traduzione fatta e finita sta preparando il terreno per un
disastroso imbarazzo garantito.

Durante questa sperimentazione ho notato che DeepL ha una particolarità: si
inventa le parole. Se incontra nel testo originale un errore di battitura che
produce una parola che non esiste, non avvisa dell’errore ma fabbrica
una traduzione inventata di quella parola.

Non sapevo ancora come si chiamasse questo difetto, finché ho scoperto che lo
stesso fenomeno esiste anche in altre intelligenze artificiali e si chiama,
appunto, allucinazione.

Oggi DeepL era particolarmente allucinato. Gli ho dato in pasto un testo
tecnico nel quale a un certo punto la parola estremità era stata
scritta senza la e iniziale. E così si è inventato, con assoluta
sicumera, la “parola” inglese stremity (in inglese estremità si
traduce spesso extremity). Poi ha incontrato diposizione (refuso
al posto di disposizione) e ha inventato diposition. Poco dopo
ha partorito un discutibilissimo nondeteriorable come traduzione
“inglese” di non deteriorabile.

Sembrava una persona di lingua italiana che ricorreva al vecchio trucco
“se non sai una parola in una lingua, prova a usare quella italiana
adattandola allo stile della lingua”. Se è tedesco, mettici un -en in fondo, alla Sturmtruppen; se è
spagnolo, sbattici in coda un -os e vai che vai bene così.

Certo, sono errori che un traduttore attento e un correttore ortografico
correttamente installato riusciranno a notare e correggere, ma che succederà a
chi si fida troppo di questi traduttori automatici e non ha gli anni di
esperienza e di competenza linguistica che gli permettono di riconoscere le
loro allucinazioni? A furia di essere usati nelle traduzioni degli
incompetenti, questi termini inventati e sbagliati diventeranno vocaboli
accettati? Mi sa che ne vedremo delle belle.

—

2023/03/05 20:00. Licia Corbolante di
Terminologia etc. mi ha mandato
questo suo thread Twitter a proposito delle parole inventate dai sistemi di
traduzione automatica (nel suo caso, il motore di traduzione automatica Naver
Papago, colto a creare vocaboli italiani durante la traduzione dal coreano di
un video, come
descritto
da Marco Ardemagni su Facebook). Lo pubblico qui con il suo permesso e su sua
gentile proposta per chiarire alcuni dubbi emersi nei commenti al mio
articolo.

Scrive Marco Ardemagni:

“Mi piacciono altre cose, come le sementi di caldo e girasole”, “Mantenere
la casa è positivo e negativo per me”, “Le cose con i ricordi sono ricordate
più deliziosamente”.

Grazie all’amico Luca Lissoni (a cui sono stati a sua volta segnalati) ho
scoperto il fascino ipnotico dei video della serie Sabzak Salim, in cui una
giovane coreana (inquadrata sempre di quinta) celebra, con sobria eleganza,
i fasti della vita da casalinga.

Come se tutto ciò non fosse già sufficiente ad accorrere in massa su questo
canale youtube, i sottotitoli italiani sfiorano vette inarrivabili di non
senso, surclassando, a mio avviso, i migliori esiti della poesia
metasemantica di Fosco Maraini.

La giantina di ceramica, i murciolini di acciaio inossidabile, il tè nero
che huore a limone, la vaissella, la lavabosca, la pincella, gettano
inquietanti ombre sulla propria stessa genesi.

Se dal coreano il sottotitolatore automatico arriva all’italiano rimbalzando
sul francese o sullo spagnolo, come fa a coniare questi fenomenali lessemi
che non appartengono a nessuno dei repertori lessicali conosciuti e non sono
nemmeno attestati in rete?
Si direbbe che il traduttore automatico
abbia preso vita cesellando uno a uno questi gioielli, ispirandosi a parole
straniere, aggiungendovi però un quid imponderabile e personalissimo.

Qualcuno è in grado di formulare ipotesi più credibili?

Risponde Licia Corbolante:

I sistemi di NMT [neural machine translation, traduzione automatica
neurale] vengono addestrati (training) su testi paralleli in lingua
1 (L1) e in lingua 2 (L2) da cui ricavano dei loro “vocabolari”
(vocabulary), che però sono incompleti: mancano tutte le parole non
presenti nei testi usati per il training. Va anche considerato che
il lessico di ogni lingua è un sistema aperto, in continua evoluzione, e
sarebbe impossibile averne di esaustivi. Oltretutto, sia per questioni di
spazio richiesto che di tempi di elaborazione, per la NMT è improduttivo
avere “vocabolari” di grandi dimensioni, che devono invece essere il più
ridotte possibile.

Come fa allora la NMT a gestire parole
out of vocabulary (OOV) che non ha mai incontrato prima?
Un’opzione è lasciarle nella lingua originale, ma il testo tradotto
potrebbe risultare incomprensibile. Un’altra opzione è usare “dizionari”
di supporto a cui la NMT può attingere per le parole mancanti, soluzione
possibile ma per nulla efficiente e soggetta comunque a errori. Si ricorre
invece ad altre soluzioni.

Per ottimizzare il processo di traduzione, i sistemi di NMT non operano a
livello di parole come le intendiamo noi, ma di unità più piccole ottenute
con particolari tipi di segmentazione, come ad es. sottoparole
(subwords) formate da sequenze di caratteri (n-gram), oppure
singoli simboli che rappresentano le sequenze di caratteri più frequenti e
che sono ottenuti con particolari algoritmi di compressione. Da un punto
di vista umano solo alcune
subword apparirebbero significative, ad es. quelle che
corrispondono a morfemi, altre invece non lo sarebbero affatto. I sistemi
di NMT invece riescono ad individuare pattern a noi non apparenti,
apprenderli e utilizzarli poi nella traduzione.

Questi metodi di segmentazione hanno il vantaggio di ridurre notevolmente
le dimensioni dei “vocabolari” e di consentire di gestire adeguatamente
anche le parole OOV (anche sfruttando similarità lessicali tra lingue: ad
esempio, una parola inglese come cynophobia, composta da elementi
formativi neoclassici, molto probabilmente in italiano viene resa
correttamente con cinofobia, come farebbe un traduttore umano).

Problemi noti di questi metodi: errori lessicali tra cui la creazione di
parole inesistenti, sia per singole parole che per composti ed espressioni
polirematiche, più o meno evidenti e ricorrenti in base alle
caratteristiche di ciascuna coppia di lingue, ad es. per le lingue
germaniche difficoltà con i composti. Nel caso di singole parole, gli
errori più comuni sono di tre tipi (esempi dai sottotitoli del video
ipotizzando inglese L1 e italiano L2):

parole che assomigliano a parole L1 ma inesistenti in L2, ad es.
*nodoli per noodle, *papaver per popover;

parole inesistenti in L2 ma che assomigliano a parole esistenti o
plausibili in L2, ad es. *panella è simile a padella, *tappuccio sia a
tappo che a cappuccio;

parole non riconducibili né a L1 né a L2, ad es. *toalla, *vaissella
(le sequenze oa e ai seguite da doppia consonante sono inusuali in
italiano)

Con questi riferimenti parole come *giantina e *murciolini dovrebbero
apparire un po’ meno misteriose: non hanno alcun senso e chissà come sono
saltate fuori, però è chiaro che il traduttore automatico ha appreso
correttamente quali parole sono conformi alla struttura delle parole
italiane!

Infine, non so come operi Naver Papago, ma nel caso la traduzione dal
coreano L1 all’italiano L2 non fosse diretta ma ricorresse a una terza
lingua pivot (ad es. inglese, o francese, o spagnolo), va considerato che
nel passaggio da una lingua all’altra gli errori si propagano.

NB Questa descrizione è ipersemplificata!

Per chi è interessato, 2 articoli in inglese che più di altri mi sono
serviti per capire meccanismi ed errori, con vari esempi:

Neural Machine Translation of Rare Words with Subword Units
(aclanthology.org)

View of NMT’s wonderland where people turn into rabbits. A study on the comprehensibility of newly invented words in NMT output (uantwerpen.be)

Correlati

mima85 su Niente Panico RSI – Puntata del 2026/06/01
Quelle. Maledette. Prese. Che devi avere la forza di Hulk per infilare o togliere una spina, e ogni volta che…
Maurice su Niente Panico RSI – Puntata del 2026/06/01
L'impedenza della "sorgente" è molto alta, quindi si può dire che "lavori" a corrente costante. Se tocchi con un dito,…
Maurice su Niente Panico RSI – Puntata del 2026/06/01
Non ha molto senso parlare di tensione. Quei 3.2 Vac che hai misurato sono il risultato della riduzione di tensione…
Maurice su Niente Panico RSI – Puntata del 2026/06/01
Esattamente. E, come è naturale, a parità di capacità parassite, aumentando la frequenza (ovvero con i nuovi alimentatori switch mode)…
Maurice su Niente Panico RSI – Puntata del 2026/06/01
Scusate i tecnicismi per addetti. Sono UPS a neutro passante. Se però, per collegamento inverso, ad essere passante non è…
PGC New Edition su Niente Panico RSI – Puntata del 2026/06/01
credo che basti un semplice multimetro da 15 euro*. Per prova ho misurato poco fa la differenza di potenziale in…
germanio53 su Niente Panico RSI – Puntata del 2026/06/01
Piu' che "deboli correnti elettrostatiche" io propendo per "debolissime correnti di perdita verso terra". Si tratta di una normale ed…
Guastulfo su Niente Panico RSI – Puntata del 2026/06/01
Che bello! Mi fai sentire meno solo! :-D Io quando giocavo con i "cerca fase" avevo circa 7 anni. Me…
zoomx su Niente Panico RSI – Puntata del 2026/06/01
Dei disturbi me ne accorsi perché me li ritrovavo in dispositivi collegati via USB a portatili a loro volta collegati…
zoomx su Niente Panico RSI – Puntata del 2026/06/01
Devi avere le dita molto molto sottili! Le prese moderne sono hanno tutte un blocco in plastica per evitare di…

Le allucinazioni di DeepL Translator (aggiornamento 2023/03/05)

Condividi:

Mi piace:

Correlati