Kleiner Fehler, große Katastrophe - GitLab geht für einen Tag offline
GitLab, ein Startup, das eine Alternative zu dem sehr beliebten GitHub darstellt, hatte kürzlich einen ziemlich harten Tag menschliches Versagen führte dazu, dass die gesamte Website einen ganzen Tag lang ausfiel.
Das Problem von GitLab begann erst mit dem Website hatte Ladezeit und Stabilitätsprobleme. Die Website wurde offline geschaltet, um die Probleme zu beheben. Jedoch während der Wartung, Jemand machte unabsichtlich den Fehler, versehentlich ein Verzeichnis mit 300 GB Live-Produktionsdaten zu löschen.
Zum Glück für GitLab die Inhalte, die nur gelöscht wurden betroffene Probleme und zusammengeführte Anfragen. Die Repositories und Wikis waren von diesem Fehler in keiner Weise betroffen Der durch diesen Fehler verursachte Schaden war nicht so schwer wie es hätte sein können
Wenn das Verzeichnis gelöscht ist, wenden sich die Mitarbeiter von GitLab sofort der Sicherung zu. Leider traf GitLab auf sie noch ein weiteres problem. Laut der Google Doc-Datei, die ständig aktualisiert wurde, da GitLab alle fünf Sicherungen / Replikationen wieder online stellt Techniken, die von der Website eingesetzt wurden, funktionierten nicht zuverlässig, und in einigen Fällen waren nie eingerichtet.
Abrufen dieser verlorenen Dateien aus der Cloud ist auch keine Option für GitLab, da der Startup Ende letzten Jahres beschlossen hat Sichern Sie die Cloud, um stattdessen eigene Ceph-Cluster zu erstellen und zu betreiben. Es ist unnötig zu erwähnen, dass GitLab jetzt seine Haltung zu diesem speziellen Thema überdenkt.
@TheRegister @gitlab wird daran arbeiten, die Anwendung leistungsfähiger zu machen und alternative Anbieter für Cloud-Hosting zu erkunden.
- Connor Shea (@connorjshea) 1. Februar 2017
Trotz des turbulenten Tages, das GitLab hatte, ist die Website nun wie gewohnt einsatzbereit. Während die Website berichteten, dass während eines Sechs-Stunden-Fensters einige Daten verloren gingen, das Git Repositories wurden nicht beschädigt während des gesamten Leidens. Ein vollständiges Ereignisprotokoll des gesamten Ereignisses kann hier eingesehen werden.
Während viele Lehren können aus dem kleinen Fehler von GitLab gelernt werden (hauptsächlich Hybris), ist die Art und Weise, wie GitLab die Krise bewältigt, ziemlich bewundernswert Das Startup war klar und transparent mit seinen Benutzern. Wir hoffen, dass GitLab aus diesem Fehler lernt. Andernfalls wäre die Benutzerbasis wahrscheinlich weniger nachsichtig, wenn sich der Verlauf wiederholt.
Quelle: Das Register