Záhada pádu Facebooku je vyriešená: Technici chceli predísť výpadku, omylom zhodili všetky služby na 6 hodín

  • Za masívnym výpadkom služieb Facebooku je rutinná údržba, tvrdí firma
  • Technici zadali príkaz, ktorý slúži na diagnostiku a opravu takýchto výpadkov
  • Toto následne skomplikovalo celý proces
facebook instagram whattsapp
TASR/Karl-Josef Hildenbrand/dpa +++ dpa-Bildfunk +++
  • Za masívnym výpadkom služieb Facebooku je rutinná údržba, tvrdí firma
  • Technici zadali príkaz, ktorý slúži na diagnostiku a opravu takýchto výpadkov
  • Toto následne skomplikovalo celý proces

V pondelok ostal takmer celý svet v panike, pretože všetky služby Facebooku postihol masívny výpadok. Približne 6 hodín nefungovali sociálne siete Facebook a Instagram, výpadky mala aj služba WhattsApp a Messenger. Hoci sa špekulovalo o internej sabotáži, vysvetlenie je o niečo prozaickejšie.

Ako informovala agentúra Reuters, výpadok spôsobila bežná údržba datacentra. Viceprezident pre siete Facebooku Santosh Janardhan na svojom blogu priblížil, že výpadok vyvolal systém, ktorý tvorí celú chrbtovú kosť kapacity siete. Tento systém sietí Facebook vybudoval, aby prepojil všetky výpočtové kapacity. Pozostáva z desiatok kilometrov optických káblov po celom svete a prepájajú datacentrá.

Ako Pat a Mat

Janardhan vysvetľuje, že sieť pozostáva z väčších a menších uzlov a datacentier. Keď spustíš na telefóne aplikáciu od Facebooku, jedno z menších zariadení odošle tvoje dáta do „chrbtovej kosti“ a odtiaľ naspäť. Technici občas potrebujú vyradiť zo siete niektorú z jej častí kvôli údržbe a to sa Facebooku stalo osudným.

Pri jednej z týchto rutinných operácií bol zadaný príkaz s cieľom posúdiť dostupnosť globálnej kapacity hlavnej siete, teda chrbtovej kosti. Neúmyselne to prerušilo všetky pripojenia v nej a v podstate globálne odpojila všetky dátové centrá Facebooku. Naše systémy sú navrhnuté tak, aby auditovali príkazy, ako sú tieto, aby sa predišlo takýmto chybám, ale chyba v nástroji na audit zabránila správnemu zastaveniu príkazu,“ vysvetľuje hlavný inžinier.

Laicky povedané, technici šli skontrolovať, či v systéme nie je chyba, ktorá by celý Facebook vyradila z činnosti a omylom sa im to podarilo. 

Táto zmena spôsobila úplné odpojenie serverových pripojení medzi našimi dátovými centrami a internetom. A celková strata pripojenia spôsobila druhý problém, ktorý všetko ešte zhoršil,“ priblížil inžinier. Ak to veľmi zjednodušíme, celá chrbtová kosť Facebooku sa stala pre internet neviditeľná, ako keby nikdy neexistovala. Prehliadač poslal požiadavku, ale dostal odpoveď, že sieť neexistuje.

Jeden problém za druhým

Toto všetko sa stalo veľmi rýchlo. Ako sa naši inžinieri snažili vec vyriešiť, čelili dvom obrovským prekážkam. Po prvé, k našim datacentrám sa nedalo dostať cez bežné zariadenia, keďže sieť nefungovala. Po druhé, strata DNS vyradila nástroje, ktoré by sme za normálnych okolností použili,“ hovorí Janardhan.

Prečo výpadok trval až 6 hodín? Podľa hlavného inžiniera sú systémy Facebooku až príliš dobre zabezpečené. Technici sa k nim museli fyzicky dostať a prekonať všetky bezpečnostné opatrenia, čo podľa neho jednoducho trvalo dlho. „Tvrdo sme makali na nepriestrelnosti systému pred neoprávneným použitím a vlastne bolo zaujímavé sledovať, ako to spomalilo nás samých. Dúfam, že takýto výpadok je zriedkavou udalosťou,“ dodal.

Napokon sa podarilo celý systém nahodiť späť a vďaka systémom, pôvodne navrhnutým na ochranu pred výpadkami prúdu pri búrkach, nedošlo k „zhodeniu“ celej platformy kvôli preťaženiu. 

Zdroje: Reuters, FacebookEngieering

Najnovšie video

Fontech

ĎALŠIE ČLÁNKY Z FONTECH.SK