Skip to content

Sie sind hier: Members » goeldi's Home » Redundanz » newsitem_view




 

Redundanz

Vor etwa einem Monat hatte Sunrise einen Totalausfall eines Mailservers, wodurch alle gespeicherten Daten - z.B. Mails, die noch nicht abgeholt wurden - verloren wurden.

Die NZZ beschrieb den Vorgang folgendermassen:

"Auslöser für die schwere Panne war der Ausfall einer Festplatte, deren Funktion nicht wie vorgesehen automatisch von einer Reserve-Disk übernommen wurde. Das gesamte System musste heruntergefahren werden; beim Wiederstarten wurde aus noch ungeklärten Gründen eine weitere Festplatte zerstört, welche die Back-up-Daten enthielt."

Analysieren wir nun einmal diese Beschreibung:

  • Sunrise liess diesen Server offenbar mit einem RAID-1 System laufen. Das heisst, dass 2 Festplatten mit den gleichen Daten parallel liefen. Man nennt es auch Spiegelung. Beide Platten hatten die genau gleichen Daten.
  • Wenn bei einem RAID-1 System eine Platte über den Jordan geht, läuft der Server ganz normal weiter, da alle Daten auch noch auf der zweiten Platte sind.
  • Aus nicht nachvollziehbaren Gründen übernahm Platte Nr. 2 jedoch diese Funktion nicht "wie vorgesehen". Dies ist nun nicht so einfach erklärbar. Ein RAID-1 System läuft entweder, oder es läuft nicht. Wenn bei einem unserer Hostingserver eine einzelne Festplatte ihre RAID-Funktion nicht mehr ausführt (also nicht "wie vorgesehen" läuft), dann schrillen hier die Sirenen, Lichter blinken und der ganze Tamtam. Sie wissen schon. So wie auf der Enterprise halt. In Fachkreisen nennt man das "Monitoring". Die technische Erklärung ist ganz simpel: in der Datei /proc/mdstat steht UU, das heisst, beide Platten sind in Ordnung. Steht dort aber _U dann ist die erste Platte defekt. Steht dort U_, ist die zweite defekt. Das Monitoring-Script prüft, ob in mdstat UU steht. Wenn nicht: Sirene.
  • Beim Neustarten wurde dann die Backupplatte zerstört. Oder der Schreiber hatte ein Durcheinander, und wollte sagen, dass die gespiegelte Platte (Nr. 2) erst beim Neustarten wirklich die Beine streckte.
  • Wenn es sich dabei jedoch wirklich um eine Backupplatte handelte, dann bedeutet das, dass eine dritte Platte eingebaut war, auf die ein Backup direkt geschrieben wurde.
  • Es könnte aber auch heissen, dass es sich dabi um eine sogenannte Spare-Disk handelte. Ein RAID-1-System kann man auch mit 3 Platten konfigurieren, wobei beim Ausfall einer Platte die funktionierende Platte automatisch die Spare-Disk benützen sollte.
Was lehrt uns diese Geschichte?

Einmal, dass man so, wie bei Goeldi.com externe Backups machen sollte, und nicht solche, die versehentlich beim Neustarten gelöscht werden könnten.

Dann sollte man prinzipiell alle Server durch ein Monitoring überwachen, auch die "weniger wichtigen".

Bezüglich dem Ablauf bei Sunrise wissen wir jetzt, dass man offenbar keine Ahnung hat, was wirklich passierte.

Hoffentlich redet bald niemand mehr darüber.

Reply to this