21:03
21/7/2010

Pamiętacie majową powódź w Krakowie? Pisaliśmy wtedy o tym, że Onet tonie i zastanawialiśmy się, czy chłopakom uda się uratować cały sprzęt, a po akcji pojawią się jakieś materiały opisujące zmagania Onetowców i rady na przyszłość. Oto i one!

Chłopaki z Onetu ratują zalaną serwerownię

Dziś na IT Blogu Onetu ukazał się wpis Marcina Kluczewskiego, który wyjaśnia jak przebiegało ratowanie serwerowni i z jakim ryzykiem wiązało się przepiecie usług do drugiego data center:

Woda u bram data center Onet.pl (fot. Onet)

Tegoroczna powódź, (…) w przypadku Onet.pl postawiła wiele osób na nogi i na pewno miała rangę sytuacji kryzysowej.

Raz że woda, dwa, że operacja przełączenia usług na drugą serwerownie wiązała się ze sporym kosztem (nie tylko finansowym):

Następnym krokiem, jaki został podjęty w związku z zagrożeniem było przepięcie wszystkich usług i systemów działających produkcyjnie na infrastrukturę zapasową w innych centrach danych. Decyzja była trudna, ponieważ architektura części z przepinanych systemów powodowała, że przepięcie możliwe było „w jedną stronę” a w każdym razie powrót z danym systemem z powrotem do lokalizacji początkowej wiązałby się z dużym nakładem pracy.

W końcu woda przerwała wał i zaczęła zalewać tereny wokół serwerowni Onetu.

Pracownicy Onetu przenoszą sprzęt na wyższe piętra (fot. Onet)

Zdecydowaliśmy się na wyłączenie core’owych macierzy dyskowych i serwerów, ponieważ nagła utrata zasilania mogła doprowadzić do uszkodzenia danych lub samych urządzeń. (…) W międzyczasie poziom wody wokół data center podniósł się na tyle, że zostało ono odcięte od świata wraz z całym zespołem, który tam pracował. W tej sytuacji urządzenia zeszły na dalszy plan a problemem stała się ewakuacja ludzi z podtopionego budynku.

Na szczęście z wyrwą w wale szybko sobie poradzono i woda zaczęła opadać. Przyszedł czas na odpoczynek, sprzątanie i wyciągniecie wniosków:

Trzeba sobie na etapie przygotowywania planów BCP (Business Continuity Planning) powiedzieć wyraźnie dla których usług posiadamy failover a dla których nie. Następnie tą świadomość muszą mieć też biznesowi właściciele usług i systemów żebyśmy w razie sytuacji awaryjnej nie zostali zasypani pytaniami „dlaczego moja usługa nie działa?”.

Pracownicy Onetu odpoczywają po walce z żywiołem (fot. Onet)

Zachęcamy do przeczytania całego wpisu i obejrzenia galerii zdjęć obrazującej walkę z wodą. A kolegom z Onetu gratulujemy sprawnej akcji i opanowania!

Podesłał ^]

Przeczytaj także:

24 komentarzy

Dodaj komentarz
  1. Dobrze, że wszystko uratowali. Gdzie bym czytał komentarze jakby onet zniknął z sieci ;<

  2. Ciekawe czemu nie maja serwerowni na wyższych piętrach.

  3. Większość serwerowni mieści się na najniższych piętrach ze względu na wagę urządzeń (generatory, baterie, itp), a także ze względu na specyfikę podłogi technicznej.
    Znam oczywiście serwerownie umieszczone na piętrach, również całkiem spore, np. Telecity we Frankfurcie nad Menem. Tam jednak DC mieści się w budynkach odziedziczonych po wojsku, które łatwo było zaadaptować.

  4. Hmm, a jeśli można spytać, to dla jakiego typu usług/systemów przepięcie może być możliwe tylko w jedną stronę? Jakoś nic nie przychodzi mi do głowy, chociaż to może kwestia tego, że nie mam zbyt dużego doświadczenia.

  5. @Pawel – pewnie chodzi o zapewnienie ciągłości usług, aby nie było żadnych przerw.

  6. @zen: raczej taka decyzja w Onet kiedyś zapadła. Też znam wiele DC, które są powyżej poziomu 0/-1.

  7. Czy to z okazji tegoż bardzo interesującego wpisu niebezpiecznik wczoraj padł?

    • Nic nam wczoraj nie padło. Jakąś godzinę może dokładniejszą podaj, rzucimy okiem w logi :-)

  8. Zaraz po moim komentarzu przestał działać. Nie podejrzewam zbiegu okoliczności raczej ;)

    • Zmienialiśmy wczoraj jedną rzecz w kodzie, ale nie zajęło to więcej niż 3 min. ;)

  9. Pojawia się pytanie czemu przy okazji wpisu “Onet tonie” niebezpiecznik został wyzwany od idiotów?

  10. ‘Pojawia się pytanie czemu przy okazji wpisu “Onet tonie” niebezpiecznik został wyzwany od idiotów?”
    Czyż nie jest specyfiką internetu że właściwie bez okazji można zostać wyzwanym od idiotów? :)

  11. Może komuś nerwy puściły, bo na zalewanej macierzy miał swoje warezy, których nie zdążył zbackupować? :D Z tego co rozumiem, to jakas tefałeniarska pracowniczka była, no cóż idealnie wpisuje sie to w wizerunek stacji ]:->

  12. BCP, failover,.. bla, bla
    kto stawia serwerownie na terenie zalewowym (zalewowym =
    na takim na ktorym isniteje ryzyko zalania w trakcie powodzi)

  13. Ja wiem, że są upały, ale “czerwcową powódź”? nawet link wskazuje do artykułu z 18-go maja ;)

  14. @zen: Przez ladnych pare lat, glowna serwerownia Crowleya na Wroclaw miescila sie na ostatnim pietrze Poltegoru – jednego z najwyzszych (o ile nie najwyzszego) wiezowca we Wroclawiu. Niestety, Poltegor zostal zburzony (w jego miejscu buduje sie teraz nowy) i serwerownia przeprowadzila w inne miejsce, tym razem w piwnicy, ale za to pancernej :)

    • Serwerownia na wyższych piętrach to też ryzyko ;-) Np. nie podniesie się podczas braku prądu, jeśli UPS-y się pokończą, a generatory są w piwnicy i przetransportować je na górę można tylko przy pomocy windy (patrz LIM, Warszawa) :>

  15. @formkbomb
    Mażesz się.Całe budynki stawia się w takich miejscach,co widać po kolejnej powodzi.
    Chcesz zobaczyć w Polsce firmę, w której o zakupie działki/budynku będą decydowały
    informacje dotyczące niebezpieczeństw lokalizacyjnych uwzględnianych pod kątem IT?
    Proszę Cię….

  16. @Mike: ile setek serwerów tam stało? (pytanie pomocnicze: znam tę lokalizację)

  17. @Kozmur
    Jesli glownym obszarem dzialalnosci firmy jest IT to czemu nie
    mialo by tak byc? W stanach wybierajac lokalizacje serwerowni bierze sie pod uwage lokalne koszty pradu, nie mowiac o czyms tak elementarnym jak nie stawianie na terenie zalewowym.

  18. @Kozmur – w mojej firmie lokalizacja i sposób budowy siedziby uwzględnia potrzeby IT. Tereny zalewowe daleko, serwerownia na 1-szym piętrze, daleko od wszelkich centrów handlowych, lotnisk, za miastem, itp. Znam jeszcze inne miejsca w tym kraju w których IT decydowało o np. sposobie budowy siedziby firmy.

  19. […] serwerów, braku false-positivów, zaufanych osób w sieciach z WPA2, szczelnych serwerów FTP, wytrzymałych UPS-ów i generatorów prądu, których nie trzeba wwozić windą do serwerowni oraz przede wszystkim użytkowników odpornych na nowy buzzword tego roku, czyli Advanced […]

  20. To już nie wiem gdzie jest ta serwerownia :/Na początku obstawiałem TVN na Płk. Dąbka, ale nie kojarzę tych kadrów. A prawda jest taka iż innych pęknięć w wale niż na Nowohuckiej w Krakowie nie było. Więc może ich zalewała jakaś cofka? np Nad Dwiną?

  21. […] przez nową stronę główną Onetu — ich autorem, jeśli wierzyć nagłówkowi pliku jest Dreamlab, czyli onetowy zespół programistów. Sygnatura w pliku wskazuje 19 września 2010 jak dzień […]

Twój komentarz

Zamieszczając komentarz akceptujesz regulamin dodawania komentarzy. Przez moderację nie przejdą: wycieczki osobiste, komentarze nie na temat, wulgaryzmy.