What Is a Postmortem
何が間違っていたのか、そしてそこから何を学ぶのか?
ポストモーテム(または post-mortem)は、過去のインシデントから学ぶことを目的としたプロセスです。通常、インシデント発生後すぐに非難のない分析とディスカッションを行います。インシデントの原因となった具体的な問題点の詳細な説明と、将来同様のインシデントが発生するのを防ぐための手順リストを含む成果物が作成されます。インシデント対応プロセス自体がインシデント中にどれだけ効果的だったかの分析も議論に含めるべきです。ポストモーテムの価値は、継続的改善の文化を制度化するのに役立つことにあります。
組織によっては、ポストモーテムプロセスを少し異なる用語で呼ぶことがあります:
- ラーニングレビュー
- アフターアクションレビュー
- インシデントレビュー
- インシデントレポート
- ポストインシデントレビュー
- 根本原因分析(RCA)
なぜポストモーテムを行うのか#
インシデント対応中、チームは100%サービスの復旧に集中しています。最適な方法を考えたり、インシデントの原因を深く掘り下げたりするために時間と精神的エネルギーを無駄にすることはできません(そうすべきでもありません)。そのためポストモーテムは不可欠で、ユーザーに影響する問題が解消された後に振り返りの機会を提供します。ポストモーテムプロセスは焦点を絞り、学習の文化を醸成し、そうでなければ失われてしまう改善の機会を特定します。
ポストモーテムを行わなければ、何がうまくいっているのか、どこを改善できるのか、そして最も重要なことに、将来同じ誤りを避ける方法を認識できません。効果的なポストモーテムを実施すれば、ミスから迅速に学び、システムとプロセスを改善することができます。適切に設計されたブレームレス(非難のない)なポストモーテムは、チームが継続的に学習し、インフラストラクチャとインシデント対応プロセスを段階的に改善する方法として機能します。ポストモーテムから最大限の利益を得るためには、詳細で正確なポストモーテムを作成するようにしましょう。
いつポストモーテムを行うべきか#
すべての重大なインシデント(Sev-2/1)に対してポストモーテムを実施してください。これにはインシデント対応が発動されたすべての場合が含まれます。後に重大度が実際には低かったことが判明した場合や、誤報だった場合、または介入なしで迅速に回復した場合であっても実施します。これらのケースでもポストモーテムを怠るべきではありません。なぜなら、インシデント対応プロセスで何がうまくいき、何がうまくいかなかったかを確認する機会だからです。インシデントがインシデント対応を発動すべきでなかった場合、なぜ発動されたのかを理解し、将来、不必要にインシデント対応を発動しないようにモニタリングを調整することが価値があります。この分析とフォローアップアクションを行うことで、今後のアラート疲れを防ぐのに役立ちます。
ポストモーテムはインシデントが解決された直後、すべての対応者にとってコンテキストの記憶が鮮明なうちに行われます。重大なインシデントが発生した時にその解決が最優先事項になるのと同様に、ポストモーテムの完了は計画された作業よりも優先されます。ポストモーテムの完了はインシデント対応プロセスの最終ステップです。ポストモーテムを遅らせると、インシデントの再発を防ぐための重要な学習が遅れます。
PagerDutyの社内ポリシーでは、Sev-1の場合は3暦日以内、Sev-2の場合は5営業日以内にポストモーテムを完了することになっています。 全員が参加できる時間を調整するのが難しい場合があるため、この期間内にポストモーテムミーティングに参加できるよう予定を調整することが期待されています。
誰がポストモーテムの責任者か#
重大なインシデントコールの終了時、またはその直後に、インシデントコマンダーは一人の対応者を選び、ポストモーテムを担当するよう直接通知します。ポストモーテムの担当者が単独でポストモーテムを完了する責任を負うわけではないことに注意してください。ポストモーテムの作成は共同作業であり、インシデント対応に関わった全員を含めるべきです。エンジニアリングが分析をリードする一方で、ポストモーテムプロセスには経営陣、カスタマーサポート、ビジネスコミュニケーションチームも関与します。ポストモーテムの担当者は、タイムリーに完了するために関与する必要のあるすべての人と調整します。
傍観者効果を避けるために、単一の担当者を指定することが重要です。すべての対応者やチームにポストモーテムを依頼すると、誰もが他の誰かがやっていると思い込み、結果的に誰もやらないリスクがあります。担当者を選ぶ際には、以下の基準のいずれかを満たす個人を選ぶことができます:
- インシデント中の調査でリーダーシップの役割を担った
- サービスの安定化につながるタスクを実行した
- 最も影響を受けたサービスのオンコール対応者だった
- インシデント対応を開始するためにインシデントを手動で発動した
ポストモーテムの実施は罰ではなく、担当者はインシデントを「引き起こした」人ではありません。効果的なポストモーテムは非難のない、ブレームレスなものです。複雑なシステムでは、単一の原因はなく、失敗につながる要因の組み合わせがあります。担当者は単に、特定の管理タスクを実行し、情報を追跡し、ポストモーテムを完了に導く責任のある個人です。ポストモーテムの作成は最終的には共同作業になりますが、この共同作業を調整する単一の担当者を選ぶことで、確実に実施されるようになります。