Skip to content

Ein schwarzer Samstag

Nicht, dass meine vergangene Woche langweilig gewesen wäre. Offenbar sah Herr Murphy das jedoch anders als ich. Denn er bescherte uns am vergangenen Samstag etwas, was man eigentlich nie erleben möchte.

Unser gesamtes Rechenzentrum ist ja durch mehrere USV-Anlagen sowie ein Diesel-Aggregat abgesichert. Aus Sicherheitsgründen gibt es für einzelne Abschnitte jeweils getrennte USV-Anlagen. Eine dieser USV-Anlagen stellte am vergangenen Samstag aus noch nicht geklärten Gründen bei der permanenten Selbst-Überprüfung eine Fehlfunktion fest. An sich ist das noch nichts "Schlimmes", denn das mehrstufige Sicherheitskonzept unserer Anlagen sieht für genau diesen Fall eine Umschaltung in einen Bypass-Modus vor, welcher zu diesem Zeitpunkt automatisch ausgelöst wurde.

Und genau hier schlug Herr Murphy gnadenlos zu: Es kam zeitgleich zu einem weiteren, internen Defekt an einer Sicherung, wodurch der Bypass-Modus nicht aktiviert werden konnte. Es kam somit zu einer kurzzeitigen Unterbrechung der Stromversorung für etwa 1 Sekunde, bis die dritte Sicherheitsstufe greifen konnte (ein anderer Bypass-Modus, der allerdings nur mit Unterbrechung möglich ist). Somit waren alle Geräte und Server, die von dieser USV-Anlage versorgt werden, für etwa 1 Sekunde stromlos. Betroffen waren unter anderem alle Server, die für unsere Webhosting-Produkte zuständig sind sowie ein Teil unserer Serverhousing- und Rootserver-Server (unsere DSL-Kunden waren hiervon nicht betroffen).

Der Hersteller der Anlage ist bereits bei der Fehlersuche (vor allem bzgl. des ursprünglichen Fehlers), die Anlage läuft zwischenzeitlich wieder einwandfrei (und lief auch zu keinem Zeitpunkt nicht mehr als USV, bei einem reinen Stromausfall hätte die Anlage korrekt gearbeitet). Darüber hinaus suchen wir derzeit nach weiteren Möglichkeiten, derartigen Fällen vorzubeugen.

Wir waren das ganze Wochenende damit beschäftigt, Server wieder "hoch" zu bringen, die entweder nicht korrekt konfiguriert waren, insbesondere Kunden-eigene Server, die kein "Auto-On" nach einem Stromausfall haben, oder bei denen das deaktiviert war, oder Server, bei denen das Betriebssystem z.B. keinen automatischen Datei-Systemcheck macht, oder auf Eingaben beim Laden von SSL-Zertifikaten wartet etc.

Selbstverständlich bleiben alle Arbeiten von uns, die in diesem Rahmen nötig waren (auch Remote Hands) kostenlos. Desweiteren werden wir uns für unsere Server-Kunden eine Entschädigung einfallen lassen, wir werden diesbezüglich im Laufe dieser Woche auf unsere Kunden zukommen.

Ich möchte mich an dieser Stelle persönlich für die entstandenen Unannehmlichkeiten sowie für evtl. bei Euch entstandeneb Arbeitsaufwand entschuldigen.

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Simon Tiffert

Nachdem ich die Seite des THW aufgrund der Einsätze von Emma pflegen wollte und alle meine Web-Seiten nicht mehr da waren, brachte ein "Crosscheck" des Hostbloggers das gleiche Ergebnis.

Somit war ich zumindest beruhigt, dass es nicht den Server zerrissen hat.

Eine Info-Seite für solche Fälle wäre hilfreich.

Manuel Schmitt (manitu)

Die haben wir :-)

http://status.manitu.de

Theo

Find ich sehr großzügig, dass ihr eure Kunden für den Aufwand entschädigen wollt. Unsere Stadtwerke (ich sag nicht welche ;) haben es vor 2 Jahren - nachts - geschafft unserem kompletten Wohnbezirk den Saft abzudrehen. Keine Straßenbeleuchtung, kein Hausstrom, nichts war mehr am Netz. Nach 3 Stunden war es dann wieder hell. Auf eine Entschuldigung warte ich bis heute g

Simon Tiffert

Perfekt, direkt gelinkt. Findet man natürlich in solchen Momenten sonst nicht.

Der Reboot per Interface hat dann übrigens gut geklappt.

Christian in Wien

Technik kann versagen, egal wie ausgereift und abgesichert sie ist, irgendwas kann immer schief gehen, und je komplexer je eher. aber zum trost muß man sagen, das zweite system hat wie geplant funktioniert, und das kann man durchaus als erfolg werten.

abgesehen davon das es oft dümmer kommt als man sich vorstellen kann :-)

PeZe

Darf man fragen, in welchem Rechenzentrum dieser Server steht und ob er auch eine eigene, handgeklöppelte USV hat?
;-)

J.I.

Ein Reboot ist immer noch besser zu verkraften, als eine mehrstündige "Abwesenheit" eines Servers. Von daher passt das mit Notfallkonzept schon ganz gut. Vielleicht wäre ein Rabatt(-Geschenk) bei den Reboot Karten eine Entschädigungsoption! Dann könnten viele Kunden in einem solchen Fall evtl. selbständig die Eingaben machen und würden keine RHs produzieren. ;-)

Oliver Weyhmüller

In der Tat war das ein Erlebnis der anderen Art, als plötzlich das Nagios Checker Plugin im Firefox einen Service nach dem anderen auf critical setzte und der an ein Schiffshorn erinnernde Benachrichtigungston beinahe wie in einer Endlosschleife wiedergegeben wurde.

Gut, dass ich in dem Fall das Nagios schnell genug deaktivieren konnte. Wenn nach 10 Minuten die Notfall-SMS und die anschließenden Anrufe rausgegangen wären hätte sich das auf der nächsten Telefonrechnung doch recht deutlich bemerkbar gemacht.

Jetzt weiß ich jedenfalls, das ich das Benachrichtigungskonzept noch etwas modifizieren muss, um auch solche Eventualitäten zu berücksichtigen.

Auch mag es meine aktuelle Konfiguration gar nicht, wenn beide Server gleichzeitig ausfallen, beim Reboot führte das automatisch in den Split-Brain Zustand, da die Server sich gegenseitig Pingen konnten und somit beide davon ausgingen, dass der andere Teil "überlebt" hat.

andreas

Interessant,

> Und genau hier schlug Herr Murphy gnadenlos zu: Es kam zeitgleich zu einem weiteren,
> internen Defekt an einer Sicherung, wodurch der Bypass-Modus nicht aktiviert werden konnte.

in etwa geanu das ist uns von einigen Wochen passiert. Der Hersteller konnte das bisher nicht erklären.

Das Ende vom Lied sind nun zwei redundatne USVs, wobei eine die volle Last allein tragen kann. Mal sehen welches Schupfloch Murphy als nächstes findet :)

Bernhard

und zack war mein telefon weg, also vielmehr der asterisk server *gg*!

Teekessel

Es gibt Netzteile, die mit großen Kondensatoren eine Sekunde Stromausfall überbrücken können. Leider habe ich den Link nicht mehr im Kopf.

yetzt

601 tage uptime verloten :(

naja, dann muss ich die 1000-tage-uptime-party nochmal verschieben...

Marco

uptime wird eh überschätzt... ;-)

Bernd Holzmüller

Vergangenen Mittwoch hatten wir (in meiner Abwesenheit, das haben Nachbarn berichtet) hier in Stuttgart auch einen kurzen Stromausfall.

Wie ich wiederkam waren alle Geräte neu gestartet (mit entsprechender uptime) bis auf eine Maschine... Die lief wohl während des Ausfalles fröhlich weiter. So ganz erklären kann ich mir das nicht, zumindest weiß ich nix besonderes über das Netzteil ;-)

nighthawk

Ich weiß (oder habe als Nichtkunde zumindestens durch Lesen dieses Blogs den Eindruck), daß bei Manitu alles drangesetzt wird den "perfekten Service" zu liefern.
Ich finde aber, daß im Falle eines solchen doppelten Zufalls nicht vom Kunden erwartet werden kann, daß der Service völlig unterbrechungslos aufrechterhalten werden kann. Wenn der Strom nach einer Sekunde wieder da war und Server, die entsprechend ausgerüstet und konfiuriert waren, nach wenigen (mutmaßlich) Minuten wieder verfügbar waren, dann hat das zu reichen.
Wenn es das nicht tut, dann sollte man vielleicht über die Anschaffung von einem Server mit zwei redundanten Netzteilen nachdenken, die an zwei verschiedenen USVs angeschlossen werden, welche wiederrum an zwei verschiedenen Stromkreisen hängen... (man könnte das Spiel noch fortsetzen)

nighthawk

Ach, es wäre noch interessant zu wissen, um wieviel Uhr der doppelte Murphy zugeschlagen hat..

Thomas

Mein Syslog Restart Eintrag war am 1.3. um 15.33 Uhr :)

Ich hätte den Ausfall nicht mal gemerkt, wenn nicht mein Dovecot beim hochfahren gehangen hätte!

Persönlcih fand ich das alles nicht so dramatisch. Vielleicht beim nächsten mal eine Kurzinfo direkt auf manitu.de - und ich würde mir eine in einer solchen Situation sicher lästige Support Email sparen :)

Thomas

Hans

Ich hoffe mal dass euer Lieferant schneller und gründlicher ist beim fehlersuchen, hier hat ein sehr ähnlicher Fehler 2 Anläufe gebraucht.

Marki

Kernel-Updates ohne Reboot? ;-)

Tommes

Ich wundere mich immer wieder, dass es trotz aller Absicherungen, Einrichtungen und redundanten Auslegungen zu solchen Fehlern kommt. Vor nicht allzu langer Zeit geschah etwas ähnliches bei einem anderen Anbieter mit den gleichen Auswirkungen.

Es kommt mir schon fast so vor, als ob es mit dem ganzen USV-/Diesel- und Was-weiss-ich-nicht-noch-allem-Zeugs häufiger zu Stromausfällen kommt, als wenn man das alles komplett weglassen würde und sich nur die Zuverlässigkeit des Stromanbieters/Stromnetzbetreibers verlassen würde.
Zu Hause haben wir (zum Glück!) weitaus seltener Stromausfälle, als in den verschiedenen RZs!

Man sieht ja, dass der ganze Technik-Firlefanz fehleranfällig ist und wenn es nur einen Kleinigkeit wie eine Sicherung ist. Und bei allem Verständnis: Es immer und immer wieder alles auf den ominösen Herrn Murphy zu schieben, langweilt mittlerweile auch.

Auch ich bin froh, dass der Ausfall nicht länger gedauert hat, da ich eine ausfallkritische Plattform im Web betreibe. Aber gerade die kurzfristigen Stromunterbrechungen von ~ 1 Sek. können aufgrund der auftretenden Spannungsspitzen u.U. eher zu Hardwaredefekten führen, als eine längerfristige Stromlosigkeit.

XnS

Selbiges hier.
Die guten alten SPARC-Kisten sind jedoch ausnahmelos durchgelaufen, waehrend die "standard" 0815 AP-Rechner den Geist aufgeben haben.

Gruß

yetzt

http://xkcd.com/363/

:)

Hollii

Das gleiche ist hier in der Strasse bei mir auch mal passiert. Allerdings muss ich sagen, die sind sehr schnell.

Und zwar war wohl unterirdisch ein Kabel gebrochen oder gerissen.

Zum Ablauf: Der Strom war plötzlich weg. Es war gegen 00:30. Um 01:10 kam einige Lkws, Bauwagen und Bagger angefahren. Ne halbe Stunde später hatten die alles aufgebaut und begannen um kurz vor 02:00 in der Nacht die Strasse aufzuschneiden. Ich sage nur Beton sägen, Presslufthammer und Bagger hoben innerhalb von nicht 40 Minuten ein riesiges Loch aus. Dann auf einmal.... Nach etwa 15 Min Stille in der Nacht. KLACK.. Und da war der Strom wieder da.

Allerdings waren auch alle Anwohner, Kinder etc im Umkreis von rund 500 meter wach. :D

Bernd Holzmüller

Da kann ich nur manuel zitieren:

http://status.manitu.de

(auf den Webhosting-Seiten findest Du den Link auch im Footer, nur beim Housing nicht...)

Allerdings hat es auch da etwas gedauert, bis eine entsprechende Fehlermeldung zu finden war. Ist aber auch ganz klar: Wenn was kaputt ist, dann wird das sofort gefixt, anstatt ewig lange Fehler-Meldungen zu tippen.
Für umgehende Informationen müsste man sich wohl eine weitere Kraft einstellen, die auf sowas spezialisiert ist und den ganzen Tag nichts anderes macht und auch nicht machen kann ;-) :-D

An-drea

ich hab nichts gemerkt ;-)) finde aber gut, dass ihr ehrlich seid und damit nicht hinterm Berg haltet!

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden.
CAPTCHA

BBCode-Formatierung erlaubt
Formular-Optionen