Podcast RSI – Perché devo sempre dimostrare che non sono un robot? Breve storia dei Captcha

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto e condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e qui sotto.

I podcast del Disinformatico sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo e i link alle fonti della storia di oggi, sono qui sotto!

[CLIP: digitazioni su tastiera]

Ormai è quasi impossibile girare su Internet senza imbattersi nella tediosa richiesta di cliccare su una casellina per confermare di non essere un robot o in quella di cliccare su delle immagini che mostrano autobus o semafori.

Perché è necessaria questa dichiarazione, e come mai così tanti siti sono così tanto interessati agli autobus e invece discriminano le eventuali forme di vita artificiali che sono online?

Questa è la storia dei captcha: uno dei tormenti moderni ma non troppo di Internet.

[SIGLA]

Nella preistoria di Internet, negli anni Novanta del secolo scorso per intenderci, quando Google non esisteva ancora (sì, è esistita un’epoca in cui Google non c’era), il motore di ricerca più popolare era un altro: AltaVista (ve lo ricordate?).

_{AltaVista nel 1995. Fonte: ThisDayInTechHistory.com.}

Beh, in quell’epoca c’erano già gli spammer. Quelle simpatiche creature subumane che appestano qualunque cosa digitale riempiendola di pubblicità dei loro siti che vendono prodotti discutibili per risolvere problemi intimi ancora più discutibili.

A quell’epoca gli spammer prendevano appunto di mira AltaVista, che usava un metodo molto primitivo per catalogare Internet: erano gli utenti a compilarlo mandandogli le informazioni sui siti che ritenevano interessanti. E così gli spammer usavano programmi automatici per inondare AltaVista di segnalazioni dei propri siti pieni di cure miracolose. I tecnici di AltaVista le cancellavano sistematicamente, ma gli spammer ne mandavano altre, e quindi il problema non si risolveva.

Così AltaVista decise di introdurre un test che potesse essere superato soltanto da un essere umano. Questo avrebbe impedito ai programmi automatici degli spammer di funzionare.

Il test consisteva nel mostrare sullo schermo di chi voleva inviare dati ad AltaVista delle lettere molto deformate, che un umano di solito riusciva a riconoscere senza problemi ma che erano completamente incomprensibili per un programma automatico. Ovviamente questo causava problemi agli utenti onesti ipovedenti o ciechi, ma non c’era molta scelta.

La soluzione sembrava semplice ed elegante e le fu presto però associato un nome molto meno elegante: Captcha, che sta per (tenetevi forte) Completely Automated Public Turing Test to tell Computers and Humans Apart. Traduzione: Test di Turing completamente automatizzato per distinguere i computer dagli umani. Turing, per chi non lo conosce, è uno dei padri dell’informatica: da lui nasce il Test di Turing, che serve appunto per distinguere un essere umano da un computer che finge di essere un essere umano.

Nel 2007 uscì una versione più sofisticata, denominata ancora peggio Recaptcha. Cercava di incoraggiare gli utenti a collaborare, spiegando che la loro azione contribuiva alla digitalizzazione dei libri cartacei e dei vecchi giornali. Recaptcha, infatti, mostrava due parole deformate: una che i suoi gestori già avevano identificato correttamente e una che invece i sistemi di riconoscimento automatico dei caratteri non avevano ancora decifrato.

L’utente doveva scriverle entrambe: la prima doveva essere trascritta correttamente e serviva a dimostrare che l’utente era davvero un essere umano, mentre la seconda, quella sconosciuta, andava semplicemente tentata. Se tanti utenti davano la stessa risposta alla stessa parola, quella risposta diventava parte del testo digitalizzato del libro o giornale d’epoca. In altre parole, gli utenti contribuivano, parola dopo parola, a digitalizzare tantissimi testi cartacei.

La cosa piacque così tanto che Recaptcha fu comprato da Google e i captcha in generale furono usati per impedire la creazione massiccia e abusiva di account di mail usa e getta da parte dei venditori di spazzatura digitale.

Ma questi spammer non si arresero. Negli anni che erano passati da quei primi, semplici captcha, la tecnologia del riconoscimento delle immagini aveva fatto enormi progressi, soprattutto nel riconoscimento dei testi, per cui cominciarono a usare computer sempre più potenti per decifrare le parole distorte e scavalcare il filtro antispam.

Questo, però, era un metodo costoso, per cui gli spammer ne inventarono presto un altro molto meno tecnologico: subappaltarono il riconoscimento a degli esseri umani che vivevano in paesi a basso reddito. Migliaia di persone venivano pagate una miseria per risolvere un captcha dopo l’altro, per ore di fila. Nacquero addirittura aziende specializzate nella risoluzione dei captcha. Alcune di loro esistono ancora oggi.

Però questi lavoratori, autentici schiavi digitali, andavano comunque pagati, e in un mercato come quello dello spam, dove i margini sono bassissimi, il costo di quella paga era un problema.

Così gli spammer hanno inventato di recente un’altra soluzione: far risolvere i captcha agli utenti normali, senza che se ne rendano conto. Per esempio, basta creare un sito che contiene qualcosa che gli utenti desiderano (immagini, video, musica, film) e chiedere loro di risolvere un captcha prima di poterlo consultare. Il captcha, in realtà, viene preso di peso istantaneamente da un altro sito, quello nel quale gli spammer vogliono entrare superandone il filtro.

È a questo punto che Google ha risposto con la casella che oggi tutti conosciamo, quella che chiede di confermare che non siamo dei robot. Un solo clic su una sola casella, e il captcha è risolto.

[CLIP: Clic di un mouse]

Sembra una cosa troppo facile, che persino un programma automatico sarebbe in grado di fare, ma c’è il trucco. In realtà dietro le quinte questo captcha trasmette moltissimi dati a Google, che permettono all’azienda di discriminare fra una cliccata fatta da un programma automatico e una fatta da un essere umano.

Quali siano questi dati non si sa. Google non vuole rivelarli per non dare aiuti agli spammer. Forse rileva i tempi di reazione o i movimenti del mouse o del dito; forse legge i cookie che Google deposita sui nostri dispositivi, visto che quando si prova a risolvere uno di questi captcha durante la navigazione privata compare puntualmente un secondo test, quello con la griglia di immagini di autobus, gattini o barche da identificare. Immagini che forse servono ad addestrare le future auto a guida autonoma, vista la loro particolare predilezione per le scene stradali complesse.

Esiste anche una versione ulteriore di questo captcha, che ha debuttato alcuni anni fa, nel 2017, ed è ancora più sofisticata: infatti è completamente invisibile. In questo captcha, Google si limita a osservare il comportamento dell’utente, come muove il mouse o il dito, come fa scorrere lo schermo, come digita le informazioni, e poi usa sofisticati sistemi di intelligenza artificiale per decidere se si tratta di un essere umano o di un sistema automatico. Anche qui, bocche cucite: i dettagli del suo funzionamento non sono pubblici.

La rincorsa fra guardie e ladri continua: avrete notato che oggi alcune banche cominciano a chiedere di identificarsi apparendo in video in tempo reale, mostrando il proprio documento d’identità oltre che il proprio volto, e questo sembra un sistema molto difficile da eludere. Neppure i deepfake riescono a falsificare un video in tempo reale.

Resta il problema di tutti coloro che hanno disabilità e quindi sono tagliati fuori da questi sistemi. Non ci vuole molto: anch’io spesso vengo ingannato dai captcha. E resta anche il problema dell’invasività sempre maggiore di questi metodi per distinguere un umano da un robot. Per non parlare della frustrazione e dell’umiliazione di non riuscire a superare un test che dovrebbe, in teoria, essere alla portata di qualunque persona cosiddetta “normale”.

Dove finirà questa rincorsa è difficile da dire. I sistemi di certificazione dell’identità digitale, come l’EIDAS dell’Unione Europea o SwissID, sono una possibile soluzione, ma non sono universali e spesso incontrano resistenze da parte di chi li considera eccessivamente a rischio per la privacy, la sorveglianza governativa e lo sfruttamento commerciale dei dati degli utenti. E in molti paesi semplicemente non esistono o hanno costi e complicazioni che li rendono inavvicinabili per una fetta importante della popolazione.

Nessun vuole Internet divisa in due categorie: cittadini e internauti di serie A e di serie B. E forse dovremo tornare a chiedere di cliccare più spesso su tanti gattini.

Fonti aggiuntive: Tom Scott; Google; Digital.