Op 19 juli 2024 stond de wereld even stil. Een update van de Falcon-applicatie van beveiligingsbedrijf CrowdStrike leidde tot een wereldwijde storing die maar liefst 8,5 miljoen Windows-pc’s trof. Kritieke infrastructuren lagen plat, vluchten werden geannuleerd, operaties in ziekenhuizen konden niet doorgaan en zelfs banken werden geraakt. Hoe kon dit gebeuren? En wat kunnen we doen om zulke problemen in de toekomst te voorkomen? In dit artikel neem ik, Michiel Oliemans, je mee door de gebeurtenissen van die fatale dag en wat er sindsdien is gebeurd.
Oorzaak en architectuur
Laten we eerst eens kijken naar de oorzaken en de architectuur van de Falcon-applicatie. De Falcon-sensor draait lokaal op de pc en stuurt, vanaf een webapplicatie, oplossingen voor kwetsbaarheden door naar jouw computer in de vorm van losse bestandjes. In het geval van Falcon worden die bestandjes Channel Files genoemd en deze zijn bedoeld om nieuwe kwetsbaarheden snel te verhelpen. De oplossingen in deze vorm noemen ze Rapid Response Content. Uiteindelijk veroorzaakte een corrupte Channel File een bug die de Falcon-applicatie, en daarmee de hele computer, liet crashen.
Wat ging er fout?
De oorzaak van deze wereldwijde chaos, was dus een Channel File dat een logische fout bevatte. Dit leidde tot het beruchte “Blue Screen Of Death” (BSOD) op miljoenen computers wereldwijd. CrowdStrike verklaarde:
“The configuration update triggered a logic error that resulted in an operating system crash.”
Maar waarom gebeurde dit? De Falcon-sensor draait diep in het Windows-systeem en heeft bepaalde rechten nodig om je computer te beschermen. Dit maakt het systeem kwetsbaar voor fouten die kunnen leiden tot volledige systeemcrashes, zoals we hebben gezien.
De reactie van CrowdStrike
Slechts een dag na de storing kondigde CrowdStrike aan dat ze het probleem hadden opgelost door de content in Channel File 291 te updaten. Maar is dit echt een goede oplossing om dit voortaan te voorkomen of slechts een quick fix? Volgens CrowdStrike zijn er meerdere maatregelen in gang gezet om toekomstige incidenten te voorkomen:
- Verbetering van testen: CrowdStrike heeft beloofd hun Rapid Response Content testing te verbeteren. Dit omvat lokale ontwikkelaarstesten, content update en rollback testen, stress testing, en stabiliteitstesten. Toch blijft de vraag of deze tests voldoende zijn om toekomstige problemen te voorkomen.
- Validator aanpassingen: Ze verbeteren hun content validator om problemen zoals die van 19 juli beter te kunnen opvangen. Maar de vraag blijft: weten we eigenlijk wel wat we niet weten? Hoe kunnen ze zeker zijn dat nieuwe problemen niet door de mazen van het net glippen?
- Foutafhandeling verbeteren: CrowdStrike werkt aan betere foutafhandeling binnen de Falcon-sensor. Dit moet voorkomen dat externe, corrupte bestanden tot systeemcrashes leiden.
- Gefaseerde updates: Ze introduceren een gefaseerde uitrolstrategie voor updates, te beginnen met een ‘Canary Deployment’. Dit betekent dat updates eerst op een kleine groep apparaten worden getest voordat ze wereldwijd worden uitgerold.
- Meer controle voor klanten: Klanten krijgen nu meer controle over hoe en wanneer updates worden geïmplementeerd. Dit is een welkome ontwikkeling, vooral voor bedrijven met kritieke infrastructuren die zelf willen testen voordat ze updates breed uitrollen.
De vraagtekens
Ondanks de snelle reactie van CrowdStrike, blijven er vragen onbeantwoord. Waarom waren deze basismaatregelen niet al eerder aanwezig? De schaal van de storing roept twijfels op over de interne processen en controlemechanismen van CrowdStrike. Ook de communicatie tussen de Falcon-sensor en de cloud roept vragen op over veiligheid en encryptie. Is deze communicatie voldoende beschermd tegen bijvoorbeeld “man-in-the-middle”-aanvallen?
Conclusies en take-aways
De reputatie van CrowdStrike heeft een flinke deuk opgelopen, en terecht. Hoewel ze nu maatregelen aankondigen die de juiste kant op gaan, had dit nooit zo ver mogen komen. Dit incident toont aan dat zelfs grote bedrijven met duizenden medewerkers niet immuun zijn voor fouten met grote gevolgen.
Belangrijkste leerpunten:
- Openheid: het is positief hoe open en gedetailleerd CrowdStrike over de storing heeft gecommuniceerd. Transparantie is cruciaal in het herstellen van vertrouwen.
- Automatisering en uitrol: CrowdStrike gebruikte al geautomatiseerde testen voor sensor updates, maar niet voor Rapid Response Content. Dit moet veranderen.
- Validatie en veiligheid: de betrouwbaarheid van de Rapid Response Content validator moet worden gegarandeerd. Het gebruik van verbeterde sensoren voor validatie kan een stap in de goede richting zijn.
- Verantwoordelijkheid: klanten moeten ook zelf verantwoordelijkheid nemen door updates gefaseerd uit te rollen en te testen.
Tot slot
Dit incident is een wake-up call voor de gehele industrie. Het toont aan hoe belangrijk het is om niet alleen te vertrouwen op de grootte en reputatie van een bedrijf, maar ook kritisch te blijven kijken naar hun processen en oplossingen. Daarnaast geeft de storing waardevolle inzichten en lessen die zowel voor hunzelf als voor andere bedrijven van belang zijn.
Meer lezen?
Wil je dieper ingaan op deze storing en de mogelijke implicaties ervan? Lees dan de volledige whitepaper voor een uitgebreide analyse van de gebeurtenissen én de stappen die CrowdStrike onderneemt om toekomstige problemen te voorkomen.