Vai al contenuto

1. Come funziona un motore di ricerca: le cose da sapere

Visualizzazioni: 24

Un motore di ricerca, come Google o Bing, è un grande sistema informatico che esplora metodicamente e automaticamente tutte le parti pubblicamente accessibili di Internet e ne cataloga e archivia il contenuto.

Questo catalogo e questo archivio vengono aggiornati costantemente e sono consultabili dagli utenti di Internet visitando il sito del motore di ricerca (per esempio Google.com o Bing.com).

Spider e algoritmi

Ogni motore di ricerca è composto da due elementi fondamentali:

  • il software “esploratore”, denominato spider (“ragno”, dato che esplora il Web, che in inglese significa “ragnatela”);
  • l’algoritmo, che decide i criteri d’importanza con i quali vengono presentati agli utenti i risultati dell’esplorazione.

L’“esploratore” ha vari nomi, a seconda del motore di ricerca al quale appartiene: per esempio, Googlebot per Google, Bingbot per Bing e Yahoo, BaiduSpider per Baidu o YandexBot per Yandex.

L’algoritmo, invece, di solito non ha un nome, tranne nel caso di Google, che lo chiama PageRank perché determina il rango (rank in inglese) delle pagine (page) del Web.

Il funzionamento esatto di questi componenti è un segreto commerciale, ma i documenti brevettuali pubblicati da Google, per esempio, gettano un po’ di luce sull’argomento: i link presenti nelle pagine esplorate da Googlebot contribuiscono fortemente a determinare l’importanza di una pagina nei risultati del motore di ricerca.

Il concetto di fondo è che se una pagina Web viene linkata da un’altra, vuol dire che la pagina linkata è considerata importante: è una sorta di voto di approvazione (o, per analogia con Facebook, è una sorta di “Mi piace”). Più “voti” ha un link, più è probabile che sarà in cima alla classifica dei risultati del motore di ricerca.

Ma anche l’importanza della pagina che ospita il link è determinante. Per esempio, se il sito di una testata giornalistica autorevole linka una data pagina Web, quella pagina Web sale di rango nella classifica dei risultati del motore di ricerca. Se un blog di un utente qualsiasi linka quella stessa pagina, l’effetto promozionale è molto più debole.

In parole povere:

più una pagina è linkata da altre pagine importanti e autorevoli del Web, più quella pagina diventa a sua volta importante ed emerge in cima ai risultati presentati dal motore di ricerca.

Il meccanismo è simile a quello usato dalle riviste scientifiche: più un articolo viene citato, e più viene citato da riviste autorevoli, più viene considerato meritevole.

Per saperne di più:

Accanto a questo criterio fondamentale, tuttavia, quasi tutti i motori di ricerca ne usano anche altri, che personalizzano i risultati in base a chi li richiede o al luogo nel quale vengono richiesti. Uno degli scopi di questa guida è evitare o ridurre questa personalizzazione, che può rendere irreperibili o nascondere i risultati che in realtà interessano maggiormente a un utente.

Google, gigante incontrastato ma generalista

In termini di quota di mercato, Google sovrasta di gran lunga tutti gli altri motori di ricerca (figura qui sotto) e offre un maggior numero di opzioni di ricerca selettiva. Per questo motivo è opportuno dedicare a questo colosso buona parte di questa guida ai motori di ricerca, perché in pratica l’universo dei motori di ricerca è costituito da Google più le briciole.

Queste sono le quote di mercato dei principali motori di ricerca a gennaio 2025 (fonte: Worldwide desktop market share of leading search enginesStatista.com).

Differenze fra motori di ricerca

Anche se Google è il gigante del settore, gli altri motori possono a volte essere più efficienti su temi specifici, per cui nessuno di loro va trascurato completamente: ognuno ha le proprie particolarità sfruttabili.

Per esempio:

  • Google (Google.com) eccelle nel fornire i cosiddetti “dieci link blu”, ossia una pagina scarna nella quale sono elencati i dieci risultati che con maggiore probabilità soddisfano la richiesta dell’utente, e offre la possibilità di effettuare ricerche estremamente complesse.
  • Bing (Bing.com) è maggiormente specializzato di Google nella copertura degli argomenti più popolari e offre più grafica e informazioni direttamente sulla pagina iniziale; offre inoltre risposte a formule matematiche complesse tramite Wolfram Alpha (sito specializzato nella risoluzione di quesiti di statistica e matematica).
  • Yahoo! Search (search.yahoo.com) usa Bing e Google, ma ne modula diversamente i risultati.
  • Baidu (baidu.com) è specializzato nelle ricerche in cinese.
  • Yandex (yandex.com) copre le ricerche nei paesi russofoni; esiste anche in versione turca (yandex.com.tr), kazaka (yandex.kz) e bielorussa (yandex.by).1
  • DuckDuckGo (Duckduckgo.com) si distingue perché, a differenza di Google e degli altri motori di ricerca, non personalizza i risultati in base all’utente ed è più rispettoso della privacy,2 anche se non è perfetto; inoltre fornisce risultati che sono un ibrido di quelli forniti da Yandex, Yahoo, Bing e Wolfram Alpha.3 Inoltre è disponibile sul dark web tramite Tor.
  • Startpage (Startpage.com), come DuckDuckGo, è un motore di ricerca che non raccoglie dati personali; diversamente da DuckDuckGo, è basato soltanto su Google.
1 Al momento in cui aggiorno questo capitolo (2025/02) la versione ucraina (yandex.ua) è irraggiungibile, probabilmente a causa dell’invasione russa dell’Ucraina.
2 Alcune forti motivazioni per preoccuparsi della schedatura sistematica delle ricerche effettuate dagli utenti ad opera di Google e altri motori di ricerca, con implicazioni a lungo termine sia personali sia politiche, sono descritte in questo articolo risalente al 2011 ma tuttora attuale.
3 Le edizioni precedenti dell’Efficercatore riportavano in questo elenco di co-fornitori anche Yummly, un motore specializzato in alimentazione, cucina e ricette, che consentiva ricerche in base a ingredienti, diete, allergie, prezzo, sapori e “imparava” i gusti dell’utente, ma Yummly è stato chiuso a dicembre 2024 [Wikipedia].

ChatGPT e altre intelligenze artificiali per la ricerca di informazioni

All’inizio del 2023 sia Google sia Microsoft hanno iniziato ad adottare sistemi di intelligenza artificiale (IA), o più propriamente grandi modelli linguistici (large language models, LLM), in grado di generare risposte a domande scritte in linguaggio naturale, anche in italiano, integrandoli nei loro prodotti, compresi i motori di ricerca (Bloomberg, 8/3/2023). Lo hanno fatto sulla scia dell’enorme popolarità di sistemi di IA come ChatGPT di OpenAI.

Al momento attuale i risultati di questi sistemi sono inaffidabili e non è opportuno usarli per ricerche significative. Queste IA infatti tendono a fornire risposte inventate o non corrispondenti ai fatti, che in gergo si chiamano allucinazioni (hallucinations) e sono confezionate in modo estremamente credibile e quindi ingannevole. La qualità sta migliorando, e le versioni a pagamento o specializzate sono leggermente meno inaffidabili: danno risultati con poche allucinazioni. Tuttavia forniscono comunque spesso risposte incomplete che quindi vanno verificate sistematicamente e in dettaglio, per cui alla fine costituiscono spesso una perdita di tempo.

Non va dimenticato inoltre l’impatto energetico e quindi ambientale dell’uso dell’IA al posto dei tradizionali motori di ricerca: una singola interrogazione a ChatGPT, per esempio, consuma dieci volte più energia di una tradizionale ricerca in Google (senza le opzioni di IA che Google sta introducendo nel proprio motore di ricerca) [NPR, 2024].

C’è anche un altro effetto indiretto dell’avvento dell’intelligenza artificiale sui motori di ricerca: il deterioramento della qualità dei risultati. Sono infatti sempre più numerosi i siti che generano i propri contenuti (testuali e grafici) usando l’IA in modo scarsamente supervisionato e quindi contengono errori terminologici, lessicali e fattuali insieme ad allucinazioni. Gli spider dei motori di ricerca non distinguono i testi generati dall’IA da quelli prodotti da esseri umani e quindi ingeriscono anche questi contenuti generati, che essendo quantitativamente molto abbondanti tendono ad avere un peso importante nelle valutazioni fatte dagli algoritmi dei motori. La conseguenza finale di questa situazione è che capita spesso che i primi risultati di Google e degli altri motori di ricerca siano pagine generate da IA e inattendibili (anche se hanno un aspetto a prima vista credibile per una persona non esperta).

Un esempio particolarmente emblematico di questo problema del cosiddetto AI slop (letteralmente “brodaglia da IA”) è stato offerto da Google, che a novembre 2023 dava una risposta decisamente priva di senso quando gli si chiedeva in inglese di cercare il nome di un paese africano che iniziasse con la lettera K. Invece di presentare la risposta ovvia (Kenya), Google metteva al primo posto un delirio senza senso: diceva che “Benché vi siano in Africa 54 paesi riconosciuti, nessuno di essi inizia con la lettera K. Quello che più vi si avvicina è il Kenya, che inizia con un suono ‘K’ ma viene effettivamente scritto con un suono ‘K’”. Questa “risposta” di Google è stata copiata pari pari attingendo a una risposta farneticante data da ChatGPT nel 2023, che è stata citata su un sito molto popolare (Emergent Mind); questa citazione è stata a sua volta citata moltissimo e quindi è stata linkata da molti siti importanti, inducendo l’algoritmo di Google a considerarla una risposta attendibile [Disinformatico.info].

La pseudo-risposta di ChatGPT citata su Emergent Mind e ripresa successivamente da Google.

Capitolo successivo: 2. Quello che un motore di ricerca non mostra

Torna all’indice generale