Vai al contenuto

Cloudflare in tilt, mezza Internet inaccessibile per alcune ore

Immagine realizzata da me con il supporto di software di intelligenza artificiale.

Per parte della giornata di oggi è stato impossibile raggiungere ChatGPT, Claude, Spotify, X e tantissimi altri siti fondamentali di Internet: colpa di Cloudflare, che ha dichiarato che a partire dalle 11.20 UTC (le 12.20 italiane) ha rilevato “un picco di traffico insolito in entrata” su uno dei suoi servizi.

Cloudflare è un cosiddetto hyperscaler: uno dei principali fornitori di sicurezza online, potenza di calcolo e connettività flessibile e on-demand al mondo (gli altri sono per esempio Amazon Web Services, SAP, Microsoft, Google e Oracle). Cloudflare dichiara che il 20% di tutti i siti Web del mondo usa i suoi servizi in un modo o nell’altro. Uno di questi servizi è la verifica che le visite ai siti provengano da persone reali e non da bot: quando visitate un sito e vedete la richiesta di cliccare in una casella per dimostrare che siete esseri umani, probabilmente state vedendo Cloudflare all’opera.

Questa sua grande diffusione l’ha inevitabilmente trasformata in uno dei principali punti critici o single point of failure di Internet. Poche settimane fa anche Amazon Web Services e Microsoft Azure hanno subìto dei blackout ingenti.

Alle 14.42 UTC (15.42 italiane) Cloudflare ha dichiarato su Cloudflarestatus.com che era stata implementata una correzione e che riteneva risolto il problema. Alle 16.27 UTC (17.27 italiane) ha annunciato che c’erano ancora alcuni errori residui.

Screenshot degli annunci di Cloudflare relativi al blackout di oggi.

Cloudflare ha poi spiegato che “La causa scatenante del blackout è stata un file di configurazione che viene generato automaticamente per gestire il traffico ostile. Il file si è accresciuto superando un limite previsto di voci e ha innescato un crash nel sistema software che gestisce il traffico per vari servizi di Cloudflare. Per chiarezza, non ci sono indizi che questo sia stato il risultato di un attacco o sia stato causato da attività ostili. Ci aspettiamo che alcuni servizi di Cloudflare saranno degradati per un breve periodo mentre si verifica il naturale picco di traffico post-incidente, ma ci aspettiamo che tutti i servizi tornino alla normalità nelle prossime ore. Considerata l’importanza dei servizi di Cloudflare, qualunque blackout è inaccettabile. Ci scusiamo con i nostri clienti e con Internet in generale per avervi deluso oggi. Impareremo dall’incidente odierno e miglioreremo.”

In originale: “The root cause of the outage was a configuration file that is automatically generated to manage threat traffic. The file grew beyond an expected size of entries and triggered a crash in the software system that handles traffic for a number of Cloudflare’s services. To be clear, there is no evidence that this was the result of an attack or caused by malicious activity. We expect that some Cloudflare services will be briefly degraded as traffic naturally spikes post incident but we expect all services to return to normal in the next few hours. Given the importance of Cloudflare’s services, any outage is unacceptable. We apologize to our customers and the internet in general for letting you down today. We will learn from today’s incident and improve.”

Fonti aggiuntive: TechCrunch, The Register, BBC, Ars Technica, Redhat.com.

0 0 voti
Valutazione dell'articolo
Iscriviti
Notificami
guest

21 Commenti
Feedback in linea
Visualizza tutti i commenti
Kikkakonekka

Buongiorno.
Domanda da “ignorante”: ma chi paga i preziosi servizi di Cloudflare?

Gianluca

I clienti dei piani a pagamento di cloudflare. Il piano gratuito è ottimo ma se il sito cresce non è piu sufficiente. Immagino che gli incassi di questi piani siano sufficienti per coprire i costi dei piani gratuiti e generare profitto.

giangi724ca5ca5c11

Devo dire che nella marea di “non ha stato io” la frase
“Considerata l’importanza dei servizi di Cloudflare, qualunque blackout è inaccettabile. Ci scusiamo con i nostri clienti e con Internet in generale per avervi deluso oggi. Impareremo dall’incidente odierno e miglioreremo.”
mi è piaciuta tantissimo

Guastulfo

“Devo dire che nella marea di “non ha stato io” la frase…”
Io sono più “pessimista” forse perché ne ho sentite tante di queste scuse.

Loro dicono che “è inaccettabile”, parlano di un file di configurazione e di limite previsto.

Io la loro frase la leggo così:
Ci scusiamo con i nostri clienti e con Internet in generale per avervi deluso oggi. Abbiamo tirato troppo la corda. Il file autogenerato è cresciuto gradualmente fino a raggiungere il limite di gestibilità dal software.
Aggiornare il sistema per gestire file più grandi costava e i nostri manager così “attenti alle spese” hanno bocciato qualsiasi upgrade fino al crash.
Impareremo dall’incidente odierno e analizzeremo le ripercussioni e il danno d’immagine: se ci sarà convenienza rifaremo ESATTAMENTE gli stessi errori.

Quando, dove lavoro, abbiamo avuto problemi (non mi riferisco solo a servizi IT ma in generale, ad esempio, convenzioni con le concessionarie con i contratti per la manutenzione dei camion) le scuse sono sempre servite per imbonire la dirigenza e per vedere se potevano ripetere “l’errore”

Rob

Io ho letto che il file è improvvisamente diventato enorme, perchè gli entry si sono duplicati a causa di un errore durante la generazione del file, non che il file è cresciuto gradualmente nel tempo fino a diventare troppo grande.

Papyrus

Cosa si intende per “siti fondamentali di internet” e si cita un social di cui si sa benissimo dove stia andando (non è certo il social di riferimento “mondiale”, o “fondamentale”, soprattutto dopo un certo momento in poi), un player musicale e due ia? Più che altro per te, sembra che questi siano i tuoi siti internet fndamentali, cosa che non credo…

Per me i “siti fondamentali di internet” sono tutt’altro.

Papyrus

Ah ok, diciamo che hai usato un termine non felicissimo: popolare e fondamentale non sono proprio sinonimi. Le parole sono importanti no? Come si dice…
“Fondamentale” è una parola molto importante e dal significato preciso e “fondante”.
Personalmente un “sito fondamentale di internet” è un sito che svolge un servizio di cui io, altri utenti, e altri siti, non si potrebbe fare a meno. Esempi potrebbero essere Paypal, o Steam, o i server adobe/autodesk (es. a caso): il sito della mia banca internet o i loro server, i siti governativi sui quali si appoggia la Scuola (o qualsiasi altro Istituto), gli stessi siti di Registro Elettronico… ma sinceramente x, ia, player musicali, non mi danno molta parvenza di essere fondamentali.

Popolari sì, ma è tutt’altra cosa 😉

R. D. Olivaw

“un sito fondamentale di internet è un sito che svolge un servizio di cui io, altri utenti, e altri siti, non si potrebbe fare a meno.”

Concordo.
Ma persone diverse hanno idee diverse su cosa sia fondamentale.
Diverso tempo fa un partito di estrema destra italiano ha fatto ricorso ad un giudice perchè la sua esclusione da un noto social network era una violazione dei suoi diritti politici.
E il tribunale gli ha dato ragione e ha stabilito che un noto social network era “fondamentale”.

R. D. Olivaw

“Esempi potrebbero essere Paypal, o Steam, o i server adobe/autodesk (es. a caso)”

Sono esempi a caso… ma per caso hai citato tre servizi che, per me, sono perfettamente inutili.

Roberto Bolis

Sorprendentemente, questa volta, Cludflare ha postato pubblicamente la spiegazione tecnica di cosa è successo e, soprattutto, delle informazioni che la rendono plausibile.
La trovate qui:
https://blog.cloudflare.com/18-november-2025-outage/

In sintesi si tratta di un bug software banale quanto grave, di quelli che gli architetti di software come me chiamano fin da tempi lontani (sono piuttosto “vintage”) hidden atomic bombs.

Traduco per chi non è un tecnico: e’ stato inserito un limite ad un serbatoio senza prevedere un troppo pieno.
Un errore di altro genere ha fatto si che l’afflusso al serbatoio, che doveva essere mediamente massimo di 60, sia andato oltre la capacità limite di 200 e questo, invece di attivare una sorta di troppo pieno, ha fatto saltare l’impianto.

Per semplificare, una sorta di buffer overfolw.

Il pezzo di codice Rust che hanno postato, purtroppo, testimonia della scarsa qualità del software e di una cosa che ho sperimentato personalmente nella mia lunga esperienza: l’architetto/sviluppatore di applicazioni backend più è bravo più tutti pensano sia una inutile Cassandra che vuole riempire il codice di “controlli per gestire cose che non si verificheranno mai”.

Come il fatto che un flusso che non ha mai superato 60 improvvisamente possa diventare oltre 200…

My 2 cents

grigio

Ma Il Disinformatico non è stato trasmesso il 17 novembre? Non ho ancora visto il testo pubblicato …

mima85

Com’era la storia del mettere tutte le uova in un paniere? Ecco, appunto…

Com’era la storia del “digitalizziamo tutto e togliamo di mezzo le alternative, che tanto Internet non fallisce mai”? Ecco, appunto…

Nel giro di un mese scarso tre hyperscaler rotolati con le chiappe per terra, tirandosi dietro un bel tocco di Internet ogni volta. E sicuramente non saranno gli ultimi incidenti di questo tipo, in particolare nell’attuale contesto incasinato in cui si ritrova il mondo. Chissà se qualcuno imparerà la lezione.

Per la cronaca, non sono contro la digitalizzazione. Sono un programmatore che lavora in una ditta il cui business gira proprio attorno alla digitalizzazione di alcuni servizi federali (Svizzera). Ma quando vedo assurdità tipo gli automatici dei biglietti per il bus tolti di mezzo “perché tanto c’è l’app sul telefono”, che se tu capiti in quella fermata con l’urgenza di prendere il bus e per sfiga hai lo smartofono con le batterie a terra, o proprio in quel momento c’è l’hyperscaler di turno col singhiozzo e la tua app non va perché dipende da quello, e tu non hai altri modi di poter fare il dannato biglietto, mi sale l’orticaria.

Non si tratta di frenare la digitalizzazione. Si tratta di mantenere delle alternative che funzionino quando la digitalizzazione non digitalizza come deve. Quello che gli informatici chiamano “piano di backup”.

martinobri

Avere un piano di riserva dovrebbe essere l’ABC in qualsiasi ambito, per qualsiasi situazione.

mima85

Il fatto è che ancora in troppi non l’hanno capito. E chissà quante ne dovranno succedere ancora perché capiscano.

Chi vivrà vedrà, sperando nel frattempo di non schiattare cotti in qualche materasso “IoT/Smart/AI/NFT/Metaverse/Webtrepuntozzero/whatever” perché il DNS in qualche datacenter all’altro capo del pianeta all’improvviso ha strani movimenti di pancia xD

R. D. Olivaw

… e il piano di riserva dovrebbe avere un piano di riserva. 🙂

Alex

Credo che il management prenda in considerazione la “legge dei rendimenti decrescenti”, tradotto in termini di cybersecurity arrivati a un certo punto non vale più la pena investire in qualcosa il cui costo sarebbe “eccessivo” per coprire un piccolo rischio. Ed a proposito di Risk Management, il rischio se non si riesce ad eliminarlo del tutto lo si deve accettare o trasferire.
In altre parole, può sembrare strano che una grande azienda come X o Claude o le ferrovie di una grande nazione ad un certo punto possano essere “a terra”, è ovvio che avranno fatto tutto il possibile per non esserlo, ma, ad esempio, avere due fornitori CDN (Content Delivery Network che mi sembra sia la definizione più corretta del lavoro di Cloudflare per altro) avrebbe un costo eccessivo per un rischio minimo.
E adesso mi aspetto il commento “e ma il danno d’immagine, la gente non viaggia ecc ecc”, bene, è appena successo, che danno d’immaggine c’è per X o Chatgpt e compagnia bella se per qualche ora non sono state funzionanti? Potete anche postare l’andamento della borsa o delle azioni, dopo tre giorni sono più alte di prima.
Semplicemente alle volte diamo alle cose più importanza di quella che hanno, all’atto pratico, tanto per fare un esempio, nessuno di noi ha in garage un’auto di riserva ferma nel caso non funzioni la prima (non potrebbe funzionare internet per chiamare un Uber o il telefono per chiamare un taxi 😉 )

mima85

È vero, però c’è anche da considerare che su questi hyperscaler si basano anche tanti servizi pubblici (sorvoliamo sull’opportunità o meno della cosa). Se vanno giù AWS o Azure si fermano aziende grosse e meno grosse, assicurazioni, banche, circuiti di pagamento, ospedali, trasporti, magari anche cose come l’erogazione di acqua o energia elettrica se i relativi IT manager sono stati così sconsiderati da “cloudizzare” le relative infrastrutture informatiche appoggiandosi a costoro. Se va giù Cloudflare si può tirare appresso siti e servizi pubblico/governativi se questi ne usano le funzionalità. E tutto questo non su scala locale o nazionale ma mondiale, ed è già successo, più volte.

Il problema non si limita solo a X, ChatGPTo Uber. Ed è fisiologico che infrastrutture così grosse possano avere problemi, infatti il discorso non è “Azure/AWS/Cloudflare/eccetera sono brutti e cattivi”, l’infallibilità al 100% non esiste. La questione è che la centralizzazione eccessiva a cui stiamo assistendo in questi ultimi 10 anni non porta nulla di buono e queste ne sono le manifestazioni.

[…] nessuno lo ringrazi”. Lo abbiamo visto a novembre scorso, quando un automatismo mal pensato di Cloudflare ha messo in ginocchio mezza Internet, e lo abbiamo visto a luglio 2024, quando un aggiornamento di […]

21
0
Esprimete la vostra opinione commentando.x