Tips for Effective Postmortems
詳細で正確なポストモーテムを作成することで、ミスから迅速に学び、全員のためにシステムとプロセスを改善することができます。このガイドでは、効果的なポストモーテムを作成するために私たちが行っていることをいくつか紹介します。
すべきこと#
- タイムラインに出来事が正確に表現されていることを確認すること。
- 新しく参加した人が理解できない可能性のある専門用語や略語を定義すること。
- 何が起きたかと、それをどう修正するかを分けて考えること。
- フォローアップタスクは、実行可能で具体的かつ範囲が限定されたものにすること。
- インシデントと、影響を受けたサービスの健全性と回復力に関する自分たちの理解を照らし合わせ、どのように合致するかを議論すること。
すべきでないこと#
- 本当に停止していない限り、「停止(outage)」という言葉を使わないようにし、インシデントの影響を正確に反映させること。「停止」は通常、使用するには広すぎる用語です。顧客に製品が完全に利用できなくなったと思わせる可能性がありますが、実際にはそうではないことがほとんどです。
- 「より良く見せる」ために詳細や出来事を変更しないこと。ポストモーテムでは正直であることが重要で、さもないとその効果が失われます。
- 特定の人を名指しで非難しないこと。ポストモーテムは非難のないものにしましょう。誰かが問題を引き起こす変更をデプロイした場合、それはその人の責任ではありません。破壊的な変更をデプロイできるシステムを構築したことに対して、全員が共同で責任を負っています。
- 「ヒューマンエラー」を非難しないこと。ミスが人間の行動に「根ざしている」ことはほとんどありません。多くの場合、いくつかの要因(人間が実行したスクリプトにレートリミットの対応がなかった、ドキュメントが古かった、など)が関係しています。このような事柄には対処することができ、また対処すべきです。
- 何が間違っていたかだけを指摘しないこと。問題の根本的な原因を掘り下げましょう。