Erste Schritte mit einem Vorfallskommunikationsplan

June 5, 2021 0 Comments

Wir bei Statuspage glauben, dass es für ein Team nie zu früh ist, über einen Plan für die Vorfallkommunikation nachzudenken. Wenn Ihr erster großer Vorfall passiert, ist es viel zu spät. Ungeplante Ausfallzeiten können zu Kundenabwanderung und einem unüberschaubaren eingehenden Supportvolumen führen. Nur eine Stunde ungeplanter Ausfallzeiten kann Unternehmen mehr als 100.000 US-Dollar kosten – und oft noch viel mehr –, so die neueste jährliche Ausfallzeitumfrage von Information Technology Intelligence Consulting Research.

Einige Ausfallzeiten sind unvermeidlich, selbst bei großen Unternehmen kommt es von Zeit zu Zeit zu Ausfällen. Die gute Nachricht ist, dass der Schaden durch Ausfallzeiten durch die rechtzeitige Bereitstellung beruhigender Kontexte und Informationen gemildert werden kann. Sie können hoffen, dass Sie nie einen Plan für die Vorfallkommunikation benötigen, aber wie Ihnen jeder gute Site Reliability Engineer (SRE) sagen wird, ist Hoffnung keine Strategie.

Die Planung der Kommunikationsstrategie für den ersten Vorfall Ihres Teams muss nicht übermäßig komplex oder ressourcenintensiv sein. Tatsächlich können Sie dies mit diesen vier Schritten ziemlich schnell erledigen:

Nehmen Sie sich zwei Stunden Zeit (seien Sie nicht überrascht, wenn Sie noch weniger Zeit benötigen) mit Ihrem Kernteam, um ein Brainstorming durchzuführen und ein paar einfache Dinge zu dokumentieren, die in diesem Leitfaden beschrieben sind. Beziehen Sie jeden ein, dessen Arbeit einen Vorfall berührt, einschließlich Ihrer Operations- und Kundensupportleiter.
Verwenden Sie die Planungsvorlage für die Vorfallkommunikation, um Ihre Strategie zu dokumentieren.
Legen Sie ein vierteljährliches Meeting fest, um Ihre Strategie zu überprüfen und Änderungen vorzunehmen.
Überprüfen und passen Sie Ihre Strategie jedes Mal an, wenn Sie einen Vorfall haben.
Vor dem Vorfall
Wissen, was ein Vorfall ist
Manchmal ist es schwer zu wissen, was genau man als „Vorfall“ bezeichnen soll. Im Folgenden finden Sie eine Reihe von Richtlinien, die von Google SREs verwendet werden. Wenn einer der folgenden Punkte zutrifft, gilt das Ereignis als Vorfall:

Müssen Sie ein zweites Team in die Behebung des Problems einbeziehen?
Ist der Ausfall für Kunden sichtbar?
Ist das Problem auch nach einer Stunde konzentrierter Analyse ungelöst?
Fühlen Sie sich frei, diese genauen Richtlinien zu übernehmen, anzupassen oder Ihre eigenen zu schreiben. „Wenn einer der folgenden Punkte zutrifft“ ist ein gutes Format. (Eine weitere hilfreiche Ressource zum Zuordnen des Schweregrads von Vorfällen ist dieser Leitfaden zu Schweregraddefinitionen von VMware.)

Ein Hinweis zur Sicherheit: Unserer Erfahrung nach ist es besser, in Situationen, in denen Sie unsicher sind, zu viel zu kommunizieren. Die Unannehmlichkeiten, die Schleife bei einem erwarteten Vorfall zu schließen, der nie stattgefunden hat, überwiegt bei weitem die Kehrseite des Nachholens der Vorfallkommunikationsstunden nach einem Vorfall.

„Ich repariere das einfach schnell, bevor es jemand merkt“, ist eine rutschige Piste. Wenn Sie das zum ersten Mal versuchen, können Sie spielen und gewinnen, aber spielen Sie das Spiel genug und schließlich werden Sie verlieren.

Leave a Reply

Your email address will not be published.