Skip to content

Ein schwarzer Montag

Nachdem vor mehr als einem Jahr eine USV-Anlage meinte, sich in eine Art von Midlife-Crisis verabschieden zu müssen, haben sich gestern nun die Batterien einer USV-Anlage zerhäkelt.

Aber alles der Reihe nach. Was ist passiert? Eine Phase der Stromversorgung hier im Gebiet ist weggeknallt. Nichts Schlimmes, dafür hat man ja USV-Anlagen und Diesel-Aggregat. Das hat auch alles ganz wunderbar funktioniert, der Diesel sprang an, die USV-Anlagen haben übernommen. Nur eine Anlage, die wollte nicht.

Genauer: Die Batterien haben es nicht bis zum Diesel ausgehalten, und das

• obwohl es nur 3 Minuten bis zur Lastübernahme des Diesels sind (inkl. Warmlaufen)
• obwohl die Batterien regelmäßig getestet sind (in echten Ausfall-Tests)
• obwohl sie eine Lebenserwartung von 10 Jahren haben
• obwohl sie noch vor ein paar Wochen wunderbar funktioniert und diese Zeit überbrückt haben

Die Rückumschaltung von Diesel auf das normale Stromnetz hat übrigens einwandfrei funktioniert, denn da mussten die Batterien auch nicht wirklich etwas leisten. Die USV-Anlage als solche hat also problemlos funktioniert.

So viel zu den Gründen und Ursachen. Die Folgen sind wohl fast jedem klar. Es war in einem Teil des Rechenzentrums kurzzeitig dunkel und sehr leise. Also diametral das Gegenteil dessen, was man sich als Techniker wünscht.

Der gestrige Tag waren wir also alle, und damit meine ich wirklich alle (inkl. mir) beschäftigt, die Server zu prüfen. Wir haben alle Server geprüft, und diejenigen, die nicht hochfuhren, manuell an der Konsole versucht, dazu zu bewegen, es doch zu tun. Der häufigste Grund für ein Nicht-Hochfahren: Falsche Bootloader-Konfiguration, meist nach Kernel-Updates. :grrr: Es gab zum Glück nur einen einzigen Festplattenausfall, der aber durchaus auch vorher schon (unbemerkt) aufgetreten sein könnte.

Und jetzt noch ein paar persönliche Dinge, die ich loswerden möchte. Zunächst einmal möchte ich mich bei den wirklich netten, verständnisvollen und unterstüztenden Lesern hier bedanken, die besonders in den Kommentaren mehr als eine Lanze für uns gebrochen haben. Hierfür empfinde ich tiefsten Respekt.

Es hat mich jedoch erschüttert, dass es, auch hier in den Kommentaren, mehr als nur eine kritische Stimme gab, besonders und auch von Kunden, bei denen ich genau das nicht erwartet hätte. Es wurden (hier und bei uns im Support) Vorwürfe und Beschuldigungen gemacht, die ich absolut nicht nachvollziehen kann. Daher hier einige Dinge, die ich (er-)klären möchte:
  • Informationspolitik hier im Blog In derartigen Situationen wie der gestrigen ist meine erste Amtshandlung sicher nicht, einen Blogbeitrag zu verfassen. Für schnelle Status-Informationen an Kunden gibt es derzeit die Status-Seite (die außerhalb unseres RZs liegt) sowie in Kürze noch eine weitere Informations-Seite.
  • "Die Hotline ist ständig besetzt! Eine Frechheit!" Die Aussage war wohl für viele Anrufer treffend und korrekt, die Schlussfolgerung aber nicht. Wie schon einige Kommentatoren hier treffend schrieben: Zu solchen Zeiten rufen eine Vielzahl an Kunden an. Sehr viele Kunden. Was nachvollziehbar ist. Wir haben aber nur eine begrenzte Zahl an Mitarbeitern. Und wenn diese alle telefonieren, ist eben "dicht". Es ist für uns wichtiger, das Problem zu lösen, anstatt darüber zu reden. Daher ziehen wir möglichst viele Resourcen auf die Problemlösung ab.
  • "Auf der 24x7-Notruf-Hotline erwarte ich immer jemanden!" Auch das geht, wie voranstehend beschrieben, personell in solchen Situationen _nie_. Wer als Kunde wirklich einen persönlichen 24x7-"Wir arbeiten daran"-Seelentröster möchte, kann gerne mit uns einen entsprechenden Vertrag schließen, ich stelle dann einfach 3 weitere Mitarbeiter ein, die in Schichtarbeit nur für diesen einen Kunden erreichbar sind. Die Kosten lege ich sogar gerne ohne Aufschlag um
  • "Aber ich muss wissen, wie lange es dauert!" Wir ebenso. Aber da uns bislang immer noch eine zuverlässig arbeitende Glaskugel fehlt, arbeiten wir solange, bis das Problem gelöst ist. Der Reihe nach. Ohne Priorisierung, einfach von A bis Z (bitte nicht wörtlich nehmen).
  • "Aber woher will ich wissen, dass Ihr wirklich etwas tut?" Einen solchen Ausfall merkt man. Es ist nahezu ausgeschlossen, dass hier etwas Derartiges passiert, aber wir es nicht von selbst merken. Und sollte dem wirklich so sein, haben wir ja die Telefone, die dann als Warnzeichen glühen.
  • "Wie verhindern Sie, dass das nie wieder passiert?" (eine Frage eines Kunden, der gestern hier persönlich vorbeikam) Simple Antwort: Gar nicht. 100%ige Sicherheit gibt es nie. Es gibt immer Umstände, egal bei wieviel Redundanz oder Vorsichtsmaßnahmen, die zu solch einer Situation führen können.
  • "Was tun Sie denn jetzt dagegen?" Heute im Laufe des Tages rollt ein LKW mit einem kompletten neuen Satz an Batterien vor die Tür, die heute noch eingebaut werden. Damit sollte, rein statistisch, das Problem vom Tisch sein. Der Spass ist übrigens, da Batterien ein Verschleissteil, keine Sache von Garantie oder Gewährleistung, sondern geht zu 100% auf unsere Kappe. Wenn ich den uns entstandenen Schaden in Form der neuen Batterien und der Arbeitszeit rechne, bin ich bei einer netten 5-stelligen Summe. (Das soll kein Leidlied sondern lediglich eine Information sein)
Es gab aber auch positive Rückmeldungen, die ich natürlich auch zitieren möchte (teilweise auch hier aus den Kommentaren):
  • der Kommentar von Alexander
  • die Kommentare von Timo hier, hier und hier
  • der Kommentar von Andre/STB
  • "ich finde es jedenfalls toll, dass Sie so professionell sind und den Schaden nicht nur schnell beheben sondern auch eine persönliche Information dazu mailen."
  • "alles kein Probelm, die Zeit ist im Wandel und der Mensch muss merken, das Geschwindigkeit nicht das ganze Leben ist."
  • "So ein kurzer Ausfall, andere Provider halten es nicht mal für nötig Stunden zu entschuldigen!"

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Tommes

Ich war von dem Ausfall betroffen und die Downtime ist/war im Falle meiner Anwendung schon sehr ärgerlich. Hoffentlich passiert so etwas nicht mehr (so schnell).

In Technik steckt man gewiss nicht drin - da kann immer mal etwas passieren, klar.

Wenn man aber immer regelmäßig im Blog schreibt, wie toll die eigene USV-Anlage doch ist, der Dieseltest perfekt funktioniert hat, was man alles für die Ausfallsicherheit investiert etc., dann muss man sich an solchen Aussagen eben auch mal messen lassen. Das ist meine Meinung.

Fakt ist: Im vorliegenden Fall hat einfach das Sicherheitsnetz versagt, sonst wäre es nicht zu der Downtime gekommen.

Da mir solche Ausfälle von so ziemlich allen Providern bekannt sind, gebe ich daher auf diese ganzen Werbeaussagen von "USV" und "Diesel" und "redundante Stromanbindung" GAR NICHTS mehr! Ich kann das auch alles nicht mehr hören und lesen!
Mit steter Regelmäßigkeit lese ich von Serverausfällen, weil plötzlich der Strom futsch war - aus welchen Gründen auch immer.

Seltsam nur: An meinem heimischen PC hatte ich noch nie einen Stromausfall - und das ganz ohne USV und Sonstwas-Gedönse...

Ich bin aber froh und sehr beruhigt, dass hier von Seiten manitu schnell und überlegt gehandelt und verantwortungsvoll reagiert wurde.

Manuel Schmitt (manitu)

Ich stimme Dir voll und ganz zu. Besonders, wenn man den Eindruck gewinnt, dass es ohne USV besser wäre. In diesem Falle wäre es mit und ohne USV identisch gewesen, der Diesel hätte ja funktioniert. Allerdings nur für diese Kunden. Für alle anderen, die an anderen USV-Anlagen hängen, nicht. Bei denen lief alles ohne Unterbrechung durch.

ANdreas Siegert

Hmm,
das mit status.manitu.de ist nett wenn man's weis. Dummerweise war www.manitu.de auch nicht erreichbar ;-(
Naja, jeder der ein bisschen mit IT zu tun hat kann sich dann ausrechnen, das es da ein signifikantes Problem gibt und man nicht unbedingt die Hotline und sonstwas löchern muss.

Die Info Mail hinterher war auf jeden Fall um Potenzen mehr als man von anderen Providern gewohnt ist.

cheers
afx

Birgit

Du weißt, ich bin keine Kundin, sondern nur Leserin und ich wurde nicht darauf aufmerksam, weil ich in betroffene Blogs geklickt habe, sondern weil es Menschen gibt, die sich in der Öffentlichkeit die Mäuler darüber zerrissen haben. Mir fehlt dafür das Verständnis. Wo Maschinen arbeiten, passieren Ausfälle und wo Menschen arbeiten, werden Fehler gemacht.

Ich kann mich erinnern an einen Ausfall vor ca. 2 Jahren als ich noch bei Bernd war als sich "der wichtigste Mensch der Welt" dazu äußerte. Bei meinem Versuch, die Wogen zu glätten, hab ich dann selbst noch nen Arschtritt bekommen, weil € 3.50 nicht eingenommen wurden und ich das offenbar nicht verstehe;-)

Soll uns im Leben nix Schlimmeres passieren ;-)

Ärgert Euch nicht über die Schreihälse, sondern freut Euch über die, die Eure Leistungen schätzen und über den Tellerrand hinausblicken.

Christian

Naja Manitu gibt ja auch keine 100% Erreichbarkeit Garantie. Die hat ja nicht mal Google Oder Microsoft.

Es ist einfach nicht möglich alle Widrigkeiten aus zu schließen.

Arnonym

Heute im Laufe des Tages rollt ein LKW mit einem kompletten neuen Satz an Batterien vor die Tür, die heute noch eingebaut werden. Damit sollte, rein statistisch, das Problem vom Tisch sein.

Bin ich der einzige, der von Statistik Ahnung hat? Rein statistisch ist jetzt das Risiko des Totalausfalls wesentlich höher als vorher. Denn wenn der Satz Batterien vom gleichen Hersteller aus der gleichen Produktion und im ungünstigsten Fall mit vorlaufender Seriennummer ist, ist es wesentlich wahrscheinlicher das beim nächsten Mal ALLE Battieren gleichzeitig die Hufe hochmachen.

Mischen lautet die Devise! Sowohl bei Raid-Festplatten, bei Kern-Netzwerkkomponenten, als auch bei den Batterien der USV. Nur so lassen sich die statistischen Ausfälle verteilen...

Michael

Hallo, als Kunde möchte ich dazu auch noch was sagen. Ich bin selbst genug Techniker um zu Wissen "Shit happens" und Murphy steckt überall. Aber: 24/7 ist EUER Brot mit dem ihr lebt als Netzwerker. Ich weiss gar nicht wie sehr ich es hasse wenn ich Morgens nicht auf meinen Server komme und ich weiss nicht wieso!

Daher ein Vorschlag. Warum bastelt ihr euch nicht ein "Notfall-Mail-System". Einfach eine simple Seite die bei Aufruf an alle Kunden die das möchten eine Not-E-Mail schickt mit dem Hinweis "Ding, Weltuntergang, wir arbeiten dran".

Das würde mich erstmal ruhig stellen :) Und vielleicht andere auch! Und der Verwaltungsaufwand würde gegen Null gehen.

Ich denke ich als Kunde zahle hier gerne etwas mehr, wegen dem typischen Manitu Feeling, aber leider gab es in letzter Zeit zu Oft Probleme. Ich hoffe ihr bekommt das in den Griff!

Einer der nix gemerkt hat meint

Schade,
ich hatte gehofft mein server wäre auch down gewesen - hab mich schon so auf die nette Post gefreut ;)

Im Ernst: Diese Akkus sind ein echtes Ärgernis - aber das man zu Hause noch nie einen Stromausfall hatte ist Blödsinn. Man merkt es nur nicht immer.

Es muss ja nicht immer gleich ein Blackout sein - eine schöne Transiente ein kleiner Brownout oder eine Unterbrechung weil im Nezt geschaltet wird reichen ja schon, um die Netzteile aus dem Tritt zu bringen - da will man schon ein Sicherheitsnetz haben.

Natürlich ist es ärgerlich, wenn genau dieses dann ausfällt, aber dafür hat man mehrere DNS-Server, mehrere MX'e und vielleicht ein DNS-failover für http. Aber dann auch gleich in unterschiedlichen Rechenzentren.

So kam es, dass meine Kunden exakt gar nichts von dem Ausfall gemerkt hätten, ausser dass ihre Büroserver die mails 5 Minuten länger in der Ausgansgqueue hatten - was sie aber auch nicht sehen - und dass mal 10 Minuten lang keine neuen Mails kamen. So what.

Birgit

@Michael

"wir arbeiten dran" ist für die, die irrtümlich glauben, Manitu wäre auf einem Betriebsausflug statt sich um die Fehlerbehebung zu kümmern oder? ;-)

Andre/STB

Da möchte ich mich mal einfach kurz anschliessen. Auch wir hier (sowohl persönlich als auch als Unternehmen) schätzen die Einstellung und die Arbeitsweise von manitu.

Es funktioniert halt einfach - und wenns mal selten doch nicht geht erhält man vom Support schnell und effektiv Hilfe bzw. das Problem wird behoben. Freundlich sind 'se obendrein.

Da ich ja nun schon ein wenig länger mich mit IT rumquäle und weiss das 100% Verfügbar ungefähr genauso wahrscheinlich ist wie der Weltfrieden dachte ich mir rufe ich doch jetzt mal alle Kommentatoren auf, um mal den Ausfall von gestern zu relativieren, die Best Of/Ärgernisse preiszugeben. Um es nicht zu Prangern bitte ohne Nennung des konkreten Anbieters der das Glanzstück fabriziert hat. Ich bin mir aber sicher das jeder eine Geschichte von den anderen Grossen (die zwei Einsen, die Jungs mit der goldenen 4 im Namen und die, die Ihre Leistung aus der STRATOsphäre verteilen) erzählen kann:

Hier z.B. Highlights die mir untergekommen sind:

[Anbieter, Rubrik Deutschlandweit bekannt] schaffte es seinen MySQL (zentral für einen grossteil der Webpräsenzen) zu killen. Backups wurden zwar gemacht, aber niemand hat gemerkt das die Backups unbrauchbar sind. Nach einigen Tagen ohne MySQL gibt man auf und sagt "tja - wir können nix machen". Die User begeben sich also klagend los und bauen Ihre Datenbanken mühsam vom Hand wieder aus eigenen Backups und manuell auf. Nach 6 Wochen fällt anbieter auf "oh - wir haben noch ein funktionierendes Backup von MySQL von vor ein paar Monaten" .. und bügeln das ohne Rückmeldung kommentarlos über die mühsam von Kunden wiederhergestellten Datenbanken. Datenstand: ca. ein paar Monate alt. Glorreich oder ?

[anderer Anbieter] Hier werden Tickets erst nach Wochen beantwortet. Die Meldung "Backupjobs werden nicht mehr ausgeführt, der Server läßt sich nicht mehr backupen" wurde nach 4 Wochen mit "hajo wir arbeiten dran quitiert". Ca. 3 Monate später gings dann wieder nach langen Ticket-hin-und-her .. man hatte die Virtualisierung auf ne andere Hostmaschine geschoben wo der Backupdienst nicht quer saß

[ gleicher Anbieter ] Die virtualisierten Server spinnen. Was macht man als Supportler ? Man klickt auf "Server neu erstellen" und bügelt den Kundenserver weg. Auf das entsetzte Nachfragen warum der Server auf einmal aussieht wie ein frisch installierter kommt nur die Antwort der alte wäre nicht zu reparieren gewesen, da hat man den neu erstellt (ob man die Daten auf der alten Kiste noch brauchte war wohl nicht so fraglich).

[ ganz anderes Land ] Der war sogar noch irgendwie witzig. Während der Jahrhunderflut (zumindest einer davon) um die Jahrtausendwende (das war uns damals nicht bewusst, wird aber noch wichtig) fielen reihenweise Domains aus dem tschechischen Namensraum von Kunden aus. Die Server liefen aber nachweisbar. Nach einer Suche von 10-20 Minuten kriegt man dann raus das die ganzen DNS Server, die die tschechischen Domains auflösen die man verwaltet nicht mehr reagieren. Diese standen auch in Prag. Ein kurzer Anruf dort klärte die Situation auf. Das Rechenzentrum stand wohl etwas ungeschickt nah an der Moldau. Durch das Hochwasser war selbige ungefähr raumfüllend dort wo die Server standen - die man wenigstens vorher noch runtergefahren hatte. Es hat ca. 7 Tage gedauert bis die wieder liefen, ich hab da damals noch ein paar Fotos gesehen wo Techniker mit Taucherausrüstung die Hardware aus dem RZ gebaut haben welches komplett unterirdisch lag.

... und jetzt vergleicht das doch mal bitte mit dem kurzen Versagen einer USV mit ein paar Stunden Präsenzausfall ;-)

Da fällt mir aber gerade ein:

Manuel: Schonmal an Tauchkurse für deine Techniker gedacht ? Ich mein mal nur .. so für den Fall ;-)

Stephan

-seufz-
Ist jemand gestorben?
Hab' gar nicht in den Nachrichten gelesen, dass die Weltwirtschaft zusammengebrochen wäre, weil bei manitu mal kurz der Strom weg war...

Ich liebe Euch Jungs (und Mädel), das wisst Ihr. Passt schon alles. :-)

Was mich mal interessieren würde: wer von den Heinis, dessen Server überlebenswichtig für die Existenz der menschlichen Rasse ist, hat denn eigentlich einen entsprechenden Vertrag für eine 99,99%-Verfügbarkeit abgeschlossen? Wahrscheinlich unter 1,2%, weil: kostet ja Geld. Aber dann gleich kotzen, wenn's mal nicht schmeckt.

-kopfschüttel-

RP

Gibts den wenigstens Bilder von dem Haufen mit neuen Batterien? ^^
Glaube wir müssen hier mal alle zusammenlegene und Herrn Schmitt eine Digicam sponsorn.
Zu den vmanchmal trockenen Texten würden sich ein paar Bilder gut machen ...

Marki

Zu Hotline und 24x7:
Na sicher ist dort immer jemand zu erwarten, weil es ist ja ein Server wichtiger als der andere, und die Glaskugel, wann die Störung denn behoben ist, sollte ab der ersten Minute funktionieren!
Also solchen "schlimmen" Kunden würde ich quasi am Telefon kündigen.

Marki

Tja die [zynismus] Tags sind wohl flöten gegangen ;)

Daniel

Ich weiß garnicht was einige haben, so ein Ausfall kann immer passieren. Ich glaube ich habe den Ausfall auch bemerkt, weil vom Shopblogger die Seite nicht mehr ging. :)

Naja sobald man wieder einen Server bestellen kann werde ich mir für die Firma hier auch einen Server bestellen :)

Tommes

Nur mal kurz zur Klarstellung an diejenigen Poster hier, die der Meinung sind "ist doch nicht so schlimm, wenn mal ein Server einige Minuten down ist" und empört mit dem Kopf schütteln.

Dies scheint eine verbreitete Meinung zu sein und in den meisten Fällen mag dies auch stimmen. Ist wirklich egal, ob meine private "Dies ist mein Hund und das bin ich"-Homepage mal 10 Minuten nicht im Netz erreichbar ist.
Auch bei einem Online-Shop sehe ich das Ganze ebenfalls erstmal nicht soooo tragisch. Denn ob tatsächlich jemand genau in diesem Moment des Serverausfalls gerade den Shop besucht oder gerade bestellen will, sei bei vielen Online-Angeboten mal dahin gestellt.

Es gibt aber auch Anwendungen, die sind hochkritisch und werden fast im Sekundentakt aufgerufen. Ein Ausfall kann im konkreten Fall wichtige Statistiken verfälschen, oder sogar zu verärgerten Kunden/Besuchern führen, die sich eben darauf verlassen, dass das System funktioniert.

Und wenn dann noch durch den unkontrollierten "Strom-Weg" Datenbank-Tabellen beschädigt werden, Inkonsistenzen auftreten und möglicherweise sogar Daten verloren gehen, dann ist das ganze doch schon sehr ärgerlich.
Ich kann in solchen Fällen jeden Admin/Betreiber verstehen, der - zu Recht - sauer ist.

Dies mal so aus meiner Sicht zum Verständnis derer, die hier evtl. nur eine Hobby-Seite oder einen Gameserver betreiben. Das denen ein 10-minütiger Ausfall egal ist, kann ich natürlich verstehen. Man sollte dann aber diejenigen Kunden, die eben ausfallkritische Anwendungen betreiben nicht sofort als "Schimpfer" oder noch gar schlimmeres bezeichnen.

Torsten K.

Hi Manuel,

vielleicht ist es ja bei eurer Telefonanlage möglich, einfach eine entsprechende Ansage vorwegzuschalten, so im Sinne von

"Sehr geehrter Anrufer, derzeit ist ein Teilbereich unserer Server ausgefallen. Unsere Techniker arbeiten daran, bitte etwas Geduld.
Wenn Sie nicht zu diesem Problem anrufen, bleiben Sie bitte in der Leitung..."

Man könnte den letzten Satz auch ändern in "Wünschen Sie, daß wir einen Techniker von dem Reparaturteam abziehen um Ihr Gespräch anzunehmen, dann legen Sie bitte nicht auf..." ;-) Just Kidding.

Ich habe übrigens auch eine USV laufen. Ich wohne allerdings auch in einem Altbau und habe nur eine 16A-Sicherung für Licht + Steckdosen, die fliegt gerne mal wenn eine Birne durchbrennt.

Sven S.

Solche Anwendungen lässt man dann aber nicht auf einem Server laufen sondern legt sie redundant aus.

Andre/STB

Und ich kann da nur nochmal anmerken: Redundanz heißt nicht nur einen zweiten Server der rechts neben dem ersten steht:

Laufend gespiegelt und alles getrennt doppelt: Das Backup braucht komplett andere Leitungen, komplett andere DNS Server, komplett andere Routings, komplett andere Stromversorgung, komplett anderer Standort in einem anderen Teil des Landes.

Wenn ich doch so abhängig von einem solchen System bin sorge ich doch für ein totales Ersatzsystem.
Jetzt mal ernsthaft. Statt Stromausfall brennt die ganze Bude bei manitu komplett ab. Vollständig. Alle Techniker inkl. Inhaber fallen mit zum Opfer (was Gott wirklich verhindern möge!!!). Das Unternehmen wird geschlossen.
Was macht Ihr denn dann ? Geht ihr gleich mit pleite weil Ihr nicht vorgesorgt habt ?

Nils Michael Becker

Uns hat der Ausfall gestern in einem extrem empfindlichen Moment getroffen: Knapp 48 Stunden vor dem (nicht verschiebbaren) Andruck der nächsten Monatsausgabe. Unter anderem waren davon der Redaktionsaccount und einige wichtige gespeicherte Informationen betroffen, und das tut ziemlich weh, wenn einem sowieso jede Stunde davonläuft.

Aber wie blöd müsste man eigentlich sein, dann noch Zeit mit komplett nutzlosen Anrufen beim Provider zu verbringen? Wenn mir das Vertrauen fehlt, dass der Provider sich gerade mit ganzer Kraft der Beseitigung des Problems widmet, wäre ich doch eh nicht bei ihm (Hallo Telekom!).

Bei Manitu macht von jeher einen Teil dieses Vertrauens aus, dass ich selbst von den wenigen Schluckauf-Momenten unserer Hostingpakete durch eine unaufgeforderte E-Mail erfahren habe - weil sie zu schnell beseitigt war, als dass wir selbst drauf hätten kommen können.

Darum haben wir uns gestern morgen mit den Manitus über den Ausfall geärgert. Und darum ist Manitu auch schon so viele Jahre mit allem Lebenswichtigem bei uns unter Vertrag.

mt

Gegen Murphy kann man nix machen. Das passiert halt, egal, wie gut man sich vorbereitet und vorher "worst case"-Szenarien testet.

Allerdings halte ich auch die Informationspolitik gestern für etwas kläglich. Eine schnelle E-Mail wäre sicher drin gewesen. Ab in die Kunden-DB, select e-mail from kundentable where rackstandort in (blablabla), oder so. Das hätte sicher bei vielen Deiner Kunden Ausfallzeiten minimieren können.

Hat ja mehrere Stunden später auch geklappt, das mit der Mail.

Allerdings zweifle ich auch nicht daran, dass Du/Ihr aus dem Problem gelernt habt, was ja eben der Grund ist, warum ich bei euch bin und sicher auch weiter und mit künftigen Systemen bei euch bleiben werde.

Und ich habe daraus gelernt, jetzt zumindest beim System-Neustart einen DB-Check laufen und mir die Ergebnisse mailen zu lassen, damit gecrashte Tabellen direkt auffallen und nicht erst nach mehreren Stunden Betrieb... ;-)

Wolfgang Stegmann

Bei uns steht höchstens mal die A620 unter Wasser... ;)

Patrick

Geht aber nicht, wenn Kundenserver auch keinen Strom mehr hat...

oldschool

HAMMER!

Ich habe gerade bei T-Mobile die 24x7 Notfallhotline angerufen, und was muss ich erleben? Es geht keiner ran, die Verbindung wird getrennt und bei einem nochmaligen Anruf wird die Verbindung sofort getrennt. Einfach nur der Hammer!

Also liebe Leute, sowas DARF nicht passieren.

strichnin

---

http://www.heise.de/mobil/newsticker/meldung/136517

Birgit

... und alle Hoster, die ein T-Mobile-Handy haben und die Nummer einigen ausgesuchten Kunden weitergegeben haben, sind jetzt, nach Feierabend wieder nicht erreichbar.

Die Tragödie nimmt kein Ende... Ich hoffe, Manuel hat einen anderen Anbieter oder wenigstens noch zwei bis fünf alternative Karten :-D

mt

So einen Server im gleichen Segment wie die gehosteten Systeme stehen zu haben und nicht komplett alleine mit eigener USV ist dann allerdings wieder fahrlässig...

BTW: T-Mobile beweisen aber gerade, dass sie noch alles locker überbieten können, was bei Manitu jemals passieren kann. ;-)

lemming

Hey, ich wusste gar nicht dass ihr auch für T-Mobile das Hosting macht?! ;)

Kommentator

Hallo Manuel,
ich sag nix zu dem Ausfall an sich (ich hab' schon ganze Abteilungen nach Hause geschickt, weil die USV einen kurzen "dip" nicht gewuppt bekam - it happens), aber möchte was zu Hotlines sagen:
Vorgeschaltete Ansage ist tatsächlich Trumpf - einfach mal die "absehbaren" Störfälle vorab als Soundfile aufnehmen und die jeweils passende Datei in dem Moment beim Telefonie-Provider in dessen "intelligent network" (siehe http://de.wikipedia.org/wiki/Intelligentes_Netz) einschleifen lassen, wenn etwas passiert.
Das kostet den Hoster einen einzigen Anruf vom Mobiltelefon oder einen Aufruf des Adminportals für das IN (unbedingt Kennwort/Passwort vereinbaren für solche Fälle!), und den Provider kostet es ein müdes Lächeln (ob 1000 Calls/Minute zum Kunden durchgestellt oder in eine Schleife geschickt werden, ist INs egal, die wuppen ganz andere Volumen nebenbei), und den Kunde ist das Gefühl gegeben, dass etwas getan wird.
Mein Tipp zu den Ansagetexten: Ruhige Stimme, klare Sätze, verbindliche Aussage, Aufnahme nicht länger als 30 Sekunden - Deine Kunden werden es schätzen.
(Ich mag INs - die Dinger sind in den richtigen Händen unbezahlbar wertvoll. Nebenbei: Failover vereinbaren, wenn mal die lokalen Telefonanlagen ausfallen - auch die hängen ja am Stromnetz und an USVs...).

Peter

Bei manchen Menschen muss man sich einfach an den Kopf fassen.
Natürlich gibt es sehr kritische Anwendungen und Prozesse, doch muss der Admin des Projekts dafür sorgen, dass in einem solchen Fall nichts passiert. Der Provider kann seinerseits nur versuchen, dass alle Systeme funktionieren, was manitu ja getan hat.

Wenn du es doch so gut weißt, warum hast du deine Projekte etc. nicht so abgesichert, dass nichts Schwerwiegendes passieren kann?

GAUSS

Von Statistik vielleicht, aber offensichtlich nicht von Stochastik.

Eric

Und heute ist für einige Stunden das Netz der T-Mobile ausgefallen...

Technik ist nicht unfehlbar und zum Thema Redundanz wurde ja schon genug gesagt...

EDK

Ich glaube die meisten Kunden führen sich nicht vor Augen wie viel Tage Ausfall 9X,YZ% aufs Jahr gerechnet tatsächlich sind. Eventuell hilft auch ein Hinweis auf die Mehrkosten für eine dem Kundenwunsch entsprechende "Hochverfügbarkeit".

Andy

Ich kann auch nicht verstehen warum Leute bei sowas immer amok laufen.
Schlimm ist es dann noch wenn die größten jammerer auch noch die kleinsten kunden sind mit ihrem privatem Blog wärend die Firma die Umsatzeinbusen hat....

Ihr wisst was ich meine.
Ich würde einen solchen Ausfall auch richtig sch.. finden, ehrlich wer tut das nicht?
Erinner mich noch an einen Teilausfall als im Rechenzentrum meines Hosters ein Router abgeraucht ist (im wörtlichem Sinne abgeraucht...)

Ich freute mich über die Informationen und die Entschuldigung nachdem das Problem behoben war, und gut ist für mich.
Soetwas passiert nunmal, und wie schon Murphy immer wusste, es gibt keine 100%ige Sicherheit.

Das einzige was ein Hoster garantieren könnte wäre dass ein Server NIE erreichbar wäre in dem er den Stecker zieht.
Obwohl selbst da dann der Praktikant kommt es nur gut meint und die Kiste wieder einsteckt ;-)
Also sagen wir einfach, es gibt eine 100%ige Garantie dass irgendwann mal irgenetwas ausfallen wird, egal wie gut die Vorsorge war.
Sollte ja auch daran erkennen zu sein dass selbst Google und Microsoft ausfälle haben.


Das einzige mal dass ich stinkig wurde war als ein Exhoster von mir einfach mal .cgi nichtmehr ausgeführt hat sondern nurnoch .pl.... bei einem Kommerziellem Script alles umschreiben auf die neue Dateiendung...

Dann war da noch der Hoster danach bei dem irgendwann garnixmer ging aus statischen Dateien, der das ganze nie beheben konnte....

Ach und der Hoster der ein umfangreiches Control Panel vesrprach aber keines hatte.
Nachdem androhen eines Gerichtsverfahrens hatte der dann auch die 3 Vorrausbezahlten Monate zurückbezahlt.

So wo war ich nun stehen geblieben?

Achja, für mich bitte mit Salami, Schinken und Extrakäse.

Jürgen Jaritsch

Mach dir nichts draus - Ausfälle gibt es immer mal wieder ... uns ist Anfang des Jahres eine 20kV Leitung um die Ohren geflogen - war auch nicht berauschend:

http://jaritsch.at/2009/01/13/die-20kv-und-ein-lauter-knall/

Solange die wirklichen Kunden hinter einem stehen und wissen, dass man sich immer den Arsch aufreisst, gibts auch bei solchen Geschichten überhaupt keine Probleme. Die, die am meisten quängeln, wollen meistens auch am wenigstens zahlen oder sind mit 1 oder 2 Rechnungen im Verzug. Geiz ist eben gar nicht geil und wer Qualität haben will, der muss dafür anständig zahlen - just my 2 cents ;).

Björn

Also ich war auch betroffen und es kam eine gute Erklärung von daher bin ich nun nicht weiter oder sauer. Ich denk Manuel regt sich selbst genug über die Sache auf und es machen schon genug Leute stress.

Wär euer Ausfall gestern gewesen, hät ich vermutet, dass T-Mobile 2 Server bei euch hat :p

sarc

Vom Timing her optimal... Im Vergleich zum schwarzen Dienstag der Telekom scheint der Ausfall ja geradezu lächerlich... ;-)

Olli G.

dann nehmen wir noch den schwarzen Mittwoch... unsere eMail Kommunikation ist intern komplett ausgefallen ;) Mindestens ein Tag ohne Mails... auch nicht schlecht ;) Aber hat nichts mit dem Apachen zu tun ;)

Stefan Wild

Das meiste ist hier ja schon geschrieben worden. Wichtig finde ich die konstruktiven Kommentare zur Informationspolitik. Vielleicht sollten alle Kunden noch einmal auf status.manitu.de hingewiesen werden (und darauf, dass sie sich das Bookmarken müssen, weil sie im Fall der Fälle eben nicht auf www.manitu.de nochmal nachschauen können). Die Seite muss dann aber auch wirklich TOPAKTUELL gehalten werden. Sprich: Noch bevor ihr euch das Problem anschaut, gehört hier eine Meldung rein. Das und eine entsprechende Ansage auf der Support-Nummer (wenn's eben größer ist bzw. länger dauert) hält euch schonmal einen Großteil der Anfragen vom Hals und beruhigt die Kunden. Als mir der Ausfall aufgefallen ist und auch deutlich danach war nämlich noch keine Meldung im status.manitu.de – da muss ich morphium zustimmen.

Wer hier über geschäftskritische, lebensnotwendige Systeme schreibt, sollte sich einmal fragen, warum er einen Vertrag mit einem Provider hat, der standardmäßig keine Verfügbarkeit garantiert, und überhaupt warum er sich auf einen einzelnen Provider verlässt. Hochverfügbarkeit lässt sich eben nicht in einem einzelnen Rechenzentrum erreichen. Und wer nicht überlebbare Inkonsistenzen in der Datenbank wegen Stromausfällen hat, sollte sich mal über sein Datenbankdesign und Backupstrategie Gedanken machen.

Abschließend kann auch ich nur sagen, ich bin und bleibe bei manitu, weil ich eine ehrliche Information über Probleme und Fehler bekomme und deshalb weiß, dass diese möglichst in der Zukunft vermieden werden.

Viele Grüße
Stefan

Christoph

Gilt das dann auch für Serverstandorte? scnr

Aber vielleicht ist es ja auch möglich innerhalb vom Manitu RZ Server zu verteilen, um solchen Dinge zu vermeiden.

Stephan Hellwig

Zitat aus dem Artikel:

""Wie verhindern Sie, dass das nie wieder passiert?"
(eine Frage eines Kunden, der gestern hier persönlich vorbeikam)"

Ääääh, ja. Wahrscheinlich war zu dem Zeitpunkt aufgrund der Betriebsamkeit der inhaltliche faux pas nicht wirklich wahrnehmbar, aber später bei der Nachbetrachtung in Form des Blogeintrages? ;-)

Very amused

Stephan

Auke

Hihi.

Adrian

Wir bieten für solche Kunden ein spezielles redundantes Hosting in verschiedenen Rechenzentren an, die Server backupen sich gegenseitig. Dank virtualisierung kann bei Ausfall eines Rechners die redundanz sogar auf einem dritten Server innerhalb kurzer Zeit wieder hergestellt werden. Für den unwahrscheinlichen Fall das auch Nummer 2 ausfällt.

Tja, nur welche Kunden wollen über 300,- € (zzgl. Servermiete pro Server) für dieses Hosting (inkl. komplette technische Betreung) bezahlen? Die wenigsten, das sind aber gleichzeitig diejenigen die sofort schreien wenn ihre Präsenz für einige Minuten ausfällt.

Manitu ist ein sehr guter Hoster aber Manuel kann ebend auch nur das bieten was die Kunden auch bezahlen wollen.
Ich bin sicher auch Manuell bekommt für Kunden mehrfach redundate Ausfallsicherheit hin wenn sie es denn bezahlen würden.

Manuel Schmitt (manitu)

Exakt!

Michael K.

Mir geht es auch manchmal so, dass ich noch lange nach einem prägnanten Ereignis weiss, wo ich zu diesem Zeitpunkt gerade gewesen bin (WTC).

Birgit

ähm...sprichst Du mit mir? Falls ja, dann meinte ich nicht, daß ich weiß, was ich am Tag des Ausfalls vor 2 Jahren gemacht habe, aber ich war keinesfalls bei Bernd (der hat nur meinen Blog gehostet zu dem Zeitpunkt) - aber danke für den Lacher :-D

Daniel

Ich kenne (als Elektriker ^^) noch ein etwas anderes verfahren:
Der Diesel wird durch einen Motorgenerator ständig auf Nenndrehzahl und durch eine Heizung Temperatur gehalten.
Wenn der Strom ausfällt, kann der Diesel sofort anspringen und der Motor arbeit dann eben als Generator.
Ich weiss natürlich nicht ob sich das für euer Rechenzentrum lohnt.
Aber ich kann mir gut vorstellen das es sowas bei grösseren Unternehmen gibt (ich weiss gar nicht wie gross manitu ist ;) ).
Vorteil der ganzen Sache: Innerhalb weniger Sekunden (umschaltung / kraftstoffzufuhr brauchen ja etwas) läufts über den Diesel weiter.
Nachteil: Arschteuer in Anschaffung und Betrieb.
MfG

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden.
CAPTCHA

BBCode-Formatierung erlaubt
Formular-Optionen