10/3/2010
Kilka dni temu Google wydało oficjalne oświadczenie dotyczące przerwy w działaniu usługi Google App Engine spowodowanej kilkugodzinną awarią prądu w serwerowni.
24 lutego 2010 Google Apps stanęło na 2 godziny. W obszernym oświadczeniu udostępnionym 5 marca przeczytać możemy co poszło nie tak i o czym zapomnieli pracownicy Google:
Pomimo faktu iż posiadamy plan postępowania w przypadku tego typu awarii, nasi pracownicy nie byli z nim zaznajomieni (…) Dokumentacja nie była ścisła, w kilku miejscach odnosiła się do konfiguracji poprzedniej, a nie obecnej wersji produktu (…)
Analiza awarii zawiera także informacje na temat nowych procedur, jakie wdrożono “post-mortem”, aby tego typu wypadek już nigdy się nie powtórzył.
Niektórzy żartują, że Google miało odpowiednie procedury postępowania w tego typu przypadkach, ale leżały one na Google Docs, które padło w trakcie awarii ;-)
Google i Dreamhost wzorem do naśladowania
Wypowiedź App Engine Teamu chcemy przedstawić jako wzór do naśladowania i chlubny wyjątek na tle firm hostingowych, które zazwyczaj skrzętnie ukrywają wszystkie swoje awarie i potknięcia.
Drugim wyjątkiem na polu “zarządzania kryzysem” jest również nasz hostingodawca — Dreamhost, który od dawna posiada specjalną stronę (hostowaną poza własną serwerownią) na której wyjaśnia wszelkie, nawet najmniejsze awarie. (Jakbyście chcieli kupić u nich hosting, dajcie znać, możemy Wam załatwić sporą zniżkę :-)

Dreamhoststatus.com dostarcza szybkie informacji na temat najdrobniejszych nawet błędów w pracy serwerów
Nie będziemy wymieniać, które z serwerowni/hostingów leżą na “przeciwnym” końcu zarządzania kryzysem, ale jesteśmy pewni, że sami znacie kilka z nich ;-)
Zapamiętaj usługodawco!
Kiedy coś nie działa, każdy jest wkurzony …ale zdecydowanie mniej nerwów tracą ci, którzy wiedzą co się dzieje i kiedy problem zostanie rozwiązany…
Naprawiać, informować i jeszcze raz informować.
Także siedzę na DH i jedyny minus jaki na razie widzę to to, że mogliby mieć lepszą kolokację, bo zachodni brzeg USA to nie jest optymalne miejsce. ;] Faktycznie, że DH status jest genialną ideą, sam niewiele razy korzystałem z niej, bo w ciągu pół roku korzystania nie uświadczyłem ani jednego padu, ale dobrze wiedzieć co się dzieje “pod maską”.
Fajnie rozwiazanie ma tez OVH http://prace.ovh.pl/ mozna sobie czasem poczytac ciekawe watki ;-)
W sumie to nie hosting, ale: ja siedzę na rootnode.net, który też ma swoją ‘statusową stronę’ poza swoją infrastrukturą na której informuje o nawet drobnych awariach. Osobiście jestem z nich bardzo zadowolony.
OVH jest dobre, trzymam u nich domeny, tylko DNSy ustawiam na DH. Kolega poleca mi też VPSy w StatNecie, trzeba będzie kiedyś przetestować.
Cóż, polska mentalność z tą skrytością awarii. W sejmie, rządzie tak mamy, czemu by nie u hostingodawców :/ Z tego względu staram się unikać od jakiegoś czasu dużych polskich firm….
Każda porządna firma tak ma, np. http://noc.leaseweb.com
Ja w kwestii formalnej. Google Apps (Gmail, Docs, kalendarz i okolice, dla domeny) i Google AppEngine (platforma dla aplikacji działających w chmurze) to dwie zupełnie różne usługi i dziwie się, że zostały tu pomylone. Awarii uległ AppEngine, Google Apps działały bez problemu.
Zawsze obejrzeć stan działania usług Google.:
– Dla Google Apps: http://www.google.com/appsstatus
– Dla Google AppEngine: http://code.google.com/status/appengine
@KościaK: faktycznie, mój skrót Google Apps, do opisu Google App Engine nie jest najtrafniejszy. Dopisałem “engine” w dwóch miejscach. Mam nadzieje, że teraz łatwiej będzie to rozróżnić nawet tym osobom, które nie przeczytały podlinkowanego oświadczenia inżynierów Google :-)
Jeszcze ten obrazek jest nie z tej usługi co trzeba :)
A co do meritum. O ile umieszczenie szczegółowego postmortem to bardzo dobry ruch to w trakcie samej awarii informacje były dość skromne (można poczytać na http://groups.google.com/group/google-appengine-downtime-notify/). Choć i tak jest zauważalny spory postęp. Podczas poprzedniej tak poważnej awarii GAE informacje na grupie pojawiły się jeszcze później, strona ze statusem nie działała, a postmortem za wiele nie wyjaśniało.