20:17
3/7/2012

* Piorun ubił chmurę Amazonu

Wyładowanie elektryczne spowodowało przestój chmury Amazonu (AWS) — ale nie tylko piorun miał wpływ na downtime. Awarię przedłużyły dodatkowe błędy, które niespodziewanie ujawniły się.

Przeczytaj także:

Ten wpis pochodzi z naszego linkbloga *ptr, dlatego nie widać go na głównej.
*ptr możesz czytać przez RSS albo przez sidebar po prawej stronie serwisu.

14 komentarzy

Dodaj komentarz
  1. co za cyrk, nie stać ich na generatory?
    u mnie na zakładzie mamy UPSy i generator gotowy 24/7 bo byłaby katastrofa jakby wyłączyły się sterowniki PLC a oni nie potrafią upilnować serwerów

    • Widać że nie przeczytałeś analizy poawaryjnej. Generatory uruchomiły się, ale nie podawały potrafiły utrzymać od razu stabilnego napięcia. Wtedy przełączyło się na UPSy, które się wyczerpały. Generator uruchomiono do końca manualnie i przełączono na niego obciążenie. Gdy wróciło zasilanie i stanowiło główne źródło zasilania wszystko się powtórzyło.

      Analiza podaje również, że 12 maja tego roku przeprowadzono testowe przełączenie całego obciążenia serwerowni na generatory – bezproblemowo. Sprzęt ma być wymieniony przez producenta.

      PS. Ciekawsza kwestia to bottleneck jaki wywołały paniczne próby uruchamiania nowych instancji.

    • to tym bardziej fail jeśli najpierw uruchamiają generator a potem przechodzą na UPS
      u nas najpierw włącza się UPSa a jak zaskoczy generator to zakład idzie na generatorze

  2. Gorzej, ubił też centrale Pogotowia Ratunkowego we Wrocławiu(999 nie działa)…

    • Awaria była w sobotę.

  3. W artykule uwalone są linki więc wstawiam bezpośredni link do “analizy”: http://aws.amazon.com/message/67457/
    PS. downtime usług amazona w praktyce: http://img534.imageshack.us/img534/237/defaultja.png

  4. Awarii nie uległa cała chmura, a jedna “Zona” w jednej lokalizacji US East-1.

  5. [suchar]
    chmury nie lubią konkurencji. he he he
    [/suchar]

  6. Bo prawdziwą chmurą to można co najwyżej botnet nazwać… Wiele, niezależnych maszyn robiących to samo. Awaria jednej, dziesięciu czy setek nie psuje systemu. A tutaj co mamy? Wciąż kilka niezależnych od siebie DataCentar w których można kupić “takie lepsze VPSy”.

  7. Brakuje mi tu info o bugu związanym z sekundą przestępną, bo to też mogło się nałożyć.

    • Od zeszłego weekendu nazywa się ją sekundą przestępczą…

  8. kolejność powinna być taka:
    po zaniku zasilania pracuje nadal UPS (online) i w tym czasie zaczyna startować generator, który gdy wystartuje zasila UPS’a

  9. to ja może was pogodzę… UPSy wcalnie nie muszą być on-line, chociaż faktycznie można tak zrobić i o ile jedt to rozwiązanie pewniejesze, to jednocześnie droższe. Cięcie kosztów powoduje powstawanie naprawdę różnych konfiguracji.
    Generalanie takie generator nie powinien odrazu być załączany na pełne obciążenie, tylko najpierw ma zasilić odbiory wrażliwe. Dodatkowo taka farma generuje dużą moc bierną pojemnościową, jeżeli nie jest ona prawidłowo kompensowana, to zwyczajnie generator wypadał z synchronizmu…
    nie wspominając już o tym że jak ktoś inwestuje w takie poważne serwerownie, to nie powinien opierać się tylko na ups/ups+gen ale już mieć pociągniętę linie z 2 róznych GPZ.

  10. zwykły prosty balance loading powinien przekazać ruch z tego datacenter na drugi… przynajmniej jeśli chodzi o usługi wrażliwe. Po jaką cholere stawiają redundantne rozwiązania jeśli to wszystko wychodzi n fail

Twój komentarz

Zamieszczając komentarz akceptujesz regulamin dodawania komentarzy. Przez moderację nie przejdą: wycieczki osobiste, komentarze nie na temat, wulgaryzmy.

RSS dla komentarzy: