19:55
10/3/2010

Kilka dni temu Google wydało oficjalne oświadczenie dotyczące przerwy w działaniu usługi Google App Engine spowodowanej kilkugodzinną awarią prądu w serwerowni.

24 lutego 2010 Google Apps stanęło na 2 godziny. W obszernym oświadczeniu udostępnionym 5 marca przeczytać możemy co poszło nie tak i o czym zapomnieli pracownicy Google:

Pomimo faktu iż posiadamy plan postępowania w przypadku tego typu awarii, nasi pracownicy nie byli z nim zaznajomieni (…) Dokumentacja nie była ścisła, w kilku miejscach odnosiła się do konfiguracji poprzedniej, a nie obecnej wersji produktu (…)

Analiza awarii zawiera także informacje na temat nowych procedur, jakie wdrożono “post-mortem”, aby tego typu wypadek już nigdy się nie powtórzył.

Niektórzy żartują, że Google miało odpowiednie procedury postępowania w tego typu przypadkach, ale leżały one na Google Docs, które padło w trakcie awarii ;-)

Google i Dreamhost wzorem do naśladowania

Wypowiedź App Engine Teamu chcemy przedstawić jako wzór do naśladowania i chlubny wyjątek na tle firm hostingowych, które zazwyczaj skrzętnie ukrywają wszystkie swoje awarie i potknięcia.

Drugim wyjątkiem na polu “zarządzania kryzysem” jest również nasz hostingodawca — Dreamhost, który od dawna posiada specjalną stronę (hostowaną poza własną serwerownią) na której wyjaśnia wszelkie, nawet najmniejsze awarie. (Jakbyście chcieli kupić u nich hosting, dajcie znać, możemy Wam załatwić sporą zniżkę :-)

Dreamhoststatus.com dostarcza szybkie informacji na temat najdrobniejszych nawet błędów w pracy serwerów

Nie będziemy wymieniać, które z serwerowni/hostingów leżą na “przeciwnym” końcu zarządzania kryzysem, ale jesteśmy pewni, że sami znacie kilka z nich ;-)

Zapamiętaj usługodawco!

Kiedy coś nie działa, każdy jest wkurzony …ale zdecydowanie mniej nerwów tracą ci, którzy wiedzą co się dzieje i kiedy problem zostanie rozwiązany…

Naprawiać, informować i jeszcze raz informować.

Przeczytaj także:

9 komentarzy

Dodaj komentarz
  1. Także siedzę na DH i jedyny minus jaki na razie widzę to to, że mogliby mieć lepszą kolokację, bo zachodni brzeg USA to nie jest optymalne miejsce. ;] Faktycznie, że DH status jest genialną ideą, sam niewiele razy korzystałem z niej, bo w ciągu pół roku korzystania nie uświadczyłem ani jednego padu, ale dobrze wiedzieć co się dzieje “pod maską”.

  2. Fajnie rozwiazanie ma tez OVH http://prace.ovh.pl/ mozna sobie czasem poczytac ciekawe watki ;-)

  3. W sumie to nie hosting, ale: ja siedzę na rootnode.net, który też ma swoją ‘statusową stronę’ poza swoją infrastrukturą na której informuje o nawet drobnych awariach. Osobiście jestem z nich bardzo zadowolony.

  4. OVH jest dobre, trzymam u nich domeny, tylko DNSy ustawiam na DH. Kolega poleca mi też VPSy w StatNecie, trzeba będzie kiedyś przetestować.

  5. Cóż, polska mentalność z tą skrytością awarii. W sejmie, rządzie tak mamy, czemu by nie u hostingodawców :/ Z tego względu staram się unikać od jakiegoś czasu dużych polskich firm….

  6. Każda porządna firma tak ma, np. http://noc.leaseweb.com

  7. Ja w kwestii formalnej. Google Apps (Gmail, Docs, kalendarz i okolice, dla domeny) i Google AppEngine (platforma dla aplikacji działających w chmurze) to dwie zupełnie różne usługi i dziwie się, że zostały tu pomylone. Awarii uległ AppEngine, Google Apps działały bez problemu.
    Zawsze obejrzeć stan działania usług Google.:
    – Dla Google Apps: http://www.google.com/appsstatus
    – Dla Google AppEngine: http://code.google.com/status/appengine

    • @KościaK: faktycznie, mój skrót Google Apps, do opisu Google App Engine nie jest najtrafniejszy. Dopisałem “engine” w dwóch miejscach. Mam nadzieje, że teraz łatwiej będzie to rozróżnić nawet tym osobom, które nie przeczytały podlinkowanego oświadczenia inżynierów Google :-)

  8. Jeszcze ten obrazek jest nie z tej usługi co trzeba :)
    A co do meritum. O ile umieszczenie szczegółowego postmortem to bardzo dobry ruch to w trakcie samej awarii informacje były dość skromne (można poczytać na http://groups.google.com/group/google-appengine-downtime-notify/). Choć i tak jest zauważalny spory postęp. Podczas poprzedniej tak poważnej awarii GAE informacje na grupie pojawiły się jeszcze później, strona ze statusem nie działała, a postmortem za wiele nie wyjaśniało.

Odpowiadasz na komentarz Tomasz Kowalczyk

Kliknij tu, aby anulować

Zamieszczając komentarz akceptujesz regulamin dodawania komentarzy. Przez moderację nie przejdą: wycieczki osobiste, komentarze nie na temat, wulgaryzmy.

RSS dla komentarzy: