GitLab down: Admin löscht Produktivdatenbank!

Seit Dienstag Nacht ist GitLab down. Verursacher war ein Admin, der ein vermeintlich leeren Ordner löschen wollte – und dann plötzlich doch 300 GB von einer Produktivdatenbank gelöscht hat. Damit nimmt die Misere jedoch erst ihren Lauf. Fünf Backups reichen nicht aus, um das System wiederherzustellen.




Der World Back Up Day ist erst am 31. März. Verlust durch Gitlab down ist hoch!

Der 01.02 ist der „Ändere dein Passwort“ – Tag. Am 31.03 ist hingegen der „World Back Up“ – Day. Wäre GitLab dem Motto im März gefolgt, dann wäre ein höhere Schaden wohl abzuwenden gewesen und die Downtime reduziert werden können. Hätte, hätte, Fahrradkette.

Beeindruckend ist die Anzahl der angelegten Backups bei GitLab trotzdem. Es wurden sage und schreibe 5 Backups gemacht. Keines von Ihnen konnte zur Wiederherstellung des Produktivbetriebes beitragen. Zum einen waren die Binaries der PostgreSQL-Datenbank nicht mir der aktuellen Version kompatibel. Snapshots haben sich auf NFS-Server und nicht auf die Datenbank bezogen. Der Vorfall zeigt: Das Testen der Datenwiederherstellung ist kein paranoides Verhalten, sondern Pflicht. Alles andere ist grob fahrlässig und riskiert den Geschäftserfolg.




Kommunikation zum GitLab down ist einzigartig und vorbildlich!

GitLab hat eine sehr gute Krisenkommunikation an den Tag gelegt. In einem Google Doc File wurden die Leser permanent auf dem Laufenden gehalten. Wer hinter die Fassade gucken wollte, der konnte sich mit einem Live Stream zu den Angestellten schalten, die versucht haben das Problem zu beheben.

Mittlerweile ist GitLab wieder verfügbar. Wie viele Nutzer vom Datenverlust und inkonsistenten Daten betroffen sind, ist noch nicht ersichtlich. Im Großen und Ganzen waren die Antworten auf die Wiederherstellung des Dienstes positiv.

Mein Kommentar zum GitLab Down!

Der Admin hat zwar den richtigen Befehl abgesetzt – sich jedoch auf einem falschen System befunden. Als er seinen Fehler bemerkte waren von 300GB nur noch 4,5GB übrig.

Am Ende war GitLab ca. 1 Tag down. Am Ende war es vielleicht nur der Schuss vor dem Bug. In anderen Situationen hätte man die Backups vielleicht dringender gebraucht. Damit die Wiederherstellung in Zukunft schneller von der Bühne geht, wird diese Prozedur voraussichtlich regelmäßiger getestet!

Weitere Informationen und Quellen

[1] Produktionsdatenbank gelöscht: GitLab.com war länger nicht erreichbar (heise developer)




Schreibe einen Kommentar