Una delle sfide nell’uso delle straordinarie possibilità dell’intelligenza
artificiale è molto, molto… umana: le persone che sviluppano questi sistemi
devono abituarsi a ragionare in maniera non umana e a capire e
prevedere gli sbagli del loro software.
C’è un caso molto famoso in questo campo che viene
spesso
citato
come
aneddoto: si racconta che alcuni anni fa un gruppo di ricercatori creò un sistema di
intelligenza artificiale per distinguere i lupi dai cani husky, dandogli in
pasto immagini di lupi e di husky e dicendogli quali erano lupi e quali erano
husky. Un metodo molto simile a quello che si usa per insegnare a una
persona a riconoscere qualunque oggetto.
Nell’aneddoto, il sistema funzionava benissimo: aveva un tasso di successo
molto elevato quando gli venivano proposte immagini che non aveva mai visto
prima. Ma a un certo punto aveva iniziato a commettere una serie di errori
madornali. I ricercatori, si racconta, scoprirono poi che il sistema non stava
in realtà riconoscendo lupi o cani, ma stava discriminando le immagini in base
alla presenza o assenza di neve. Infatti tutte le immagini di lupi che erano
state usate per addestrare l’intelligenza artificiale avevano uno sfondo
innevato e quelle degli husky no, e i ricercatori non ci avevano fatto caso.
—
L’aneddoto è divertente; illustra bene un problema frequente dei
ricercatori di intelligenza artificiale, ossia la tendenza a fare una
selezione errata dei campioni usati per l’addestramento del software, ma in
realtà racconta i fatti in modo sbagliato.
Prima di tutto, la ricerca fu effettivamente realizzata (è descritta in un
articolo scientifico del 2016, disponibile
qui su Arxiv.org) e diede
davvero quei risultati, ma l’intelligenza artificiale fu creata
appositamente difettosa (“We trained this bad classifier intentionally”) per dimostrare l’importanza di usare immagini campione ben selezionate e
mettere in chiaro il pericolo delle cosiddette correlazioni spurie e
dell’eccessiva fiducia che si rischia di dare a sistemi addestrati
maldestramente.
Le correlazioni spurie sono quelle che un essere umano non farebbe mai,
perché sa cos’è un husky e cos’è un lupo in base alla propria conoscenza degli
animali e della realtà in generale, ma che un’intelligenza artificiale rischia
di fare perché si basa esclusivamente sulle immagini che le sono state date,
senza alcuna conoscenza della realtà: dove noi vediamo husky o lupo,
l’intelligenza artificiale vede macchie di pixel che si somigliano oppure
no.
L’aspetto più interessante di questo aneddoto è un altro elemento che manca
nella sua narrazione abituale: i risultati dell’intelligenza artificiale
furono presentati a un gruppo di studenti laureati del settore, mostrando loro
otto riconoscimenti corretti e uno sbagliato, nel quale l’intelligenza
artificiale aveva identificato come lupo quello che in realtà era un husky.
Agli studenti fu chiesto se ritenessero affidabile un software che azzeccava
otto volte su nove, perché lo ritenessero affidabile, e quale fosse secondo
loro il criterio usato dal software per distinguere lupi e husky.
Solo in seguito fu spiegato loro il criterio effettivamente utilizzato
dall’intelligenza artificiale, ossia la presenza o assenza di bianco nella
parte inferiore dell’immagine.
Prima di conoscere il criterio, oltre un terzo degli studenti aveva dichiarato
di fidarsi del software e meno della metà aveva citato la presenza di neve
come possibile elemento discriminante spurio usato per errore
dall’intelligenza artificiale. Una volta conosciuto il criterio effettivo, la
loro fiducia era calata notevolmente.
Gli studenti avevano insomma dato fiducia a quest’intelligenza artificiale
basandosi puramente sulle sue statistiche di successo, ragionando che se
funziona otto volte su nove vuol dire che funziona bene, fine del problema. Se
questo errore capita a degli esperti del settore, immaginatevi quanto possa
capitare a chi non è esperto.
Proprio in questi giorni sulla prestigiosa rivista medica The Lancet è
stato pubblicato un
articolo
(segnalato da Eric Topol) che
racconta un incidente analogo capitato in un settore ben più delicato: quello
della salute. Un modello di intelligenza artificiale concepito per riconoscere
fratture femorali nelle radiografie dei pazienti aveva prodotto risultati
praticamente perfetti, superiori a quelli dei radiologi in carne e ossa, ma a
un certo punto aveva manifestato
“comportamenti algoritmici inattesi e potenzialmente dannosi” (“unexpected
and potentially harmful algorithmic behaviour”). Che è un eufemismo per dire che prendeva delle cantonate spettacolari che
avrebbero potuto rovinare i pazienti.
L’articolo di Lancet non nega il potenziale di queste tecnologie, ma
mette in luce le necessità di esaminare con attenzione il modo in cui
funzionano prima di introdurle nella pratica clinica, per evitare che
ci si basi su criteri che sono robusti e sensati soltanto in apparenza.
“Storicamente”, dicono gli autori dell’articolo,
“i sistemi di diagnosi assistita da computer hanno spesso fornito
prestazioni inaspettatamente scadenti in contesto clinico nonostante
valutazioni precliniche promettenti”.
Per fortuna c’è, secondo loro, una soluzione: obbligare chi offre questi
sistemi a spiegare come funzionano realmente e a sottoporli a verifiche da
parte di esperti di intelligenza artificiale, secondo una tecnica denominata
algorithmic auditing.
Insomma, sembra proprio che l’intelligenza artificiale ci possa dare una mano,
a patto di addestrarla bene, e sembra anche scongiurato un altro pericolo che
viene spesso citato: quello che l’intelligenza artificiale causi
disoccupazione. Per fare questo algorithmic auditing serviranno infatti
persone esperte sia in campo informatico sia nel campo nel quale si vogliono
applicare questi sistemi, e serviranno anche decisori che sappiano che non ci
si può semplicemente fidare di un numeretto che indica una percentuale di
successo ma occorre piena trasparenza.
Nascono quindi nuovi mestieri che si affiancano a quelli tradizionali.
Sperando che chi li farà non venga selezionato da un software che li sceglie
in base a qualche correlazione spuria o campione distorto, come è accaduto ad
Amazon. Nel 2018 l’azienda di Jeff Bezos ha dovuto rinunciare a un sistema
automatico di selezione dei candidati quando è emerso (dice
Reuters) che discriminava le donne. Il software, infatti, era stato addestrato
usando i curricula inviati ad Amazon nei dieci anni precedenti, e la maggior
parte di quei curricula era maschile, per cui il sistema di
machine learning aveva dedotto (si fa per dire) che i candidati
maschili erano da preferire a quelli femminili.

