障害対応で疲れた一日

システムを本番に投入して初めて自分の担当箇所で障害発生。初めてといっても去年はずっと開発で先月リリースしたばかりなので、恥ずかしながらすぐに問題が出てきたわけですが…。なんといっても、他社との金のやりとりに関わるモジュールなので影響範囲の調査とかで戦々恐々な1日でした。
幸いにして実質的な影響は無かったのですが、関係各所(特に直属の上司)に多大な迷惑をかけることになったかと思うととても恐ろしいです。


障害が起きると、影響範囲を調べて報告と、原因/対策の報告、などなどをするわけですが、真っ先に聞かれるのは「テストしてなかったの?」の一言です。本番に突っ込んだあとに障害(バグ)が発覚するのは多くの場合テストが不十分で、僕もすでに何度も苦汁をなめさせられてきていたわけですが、今回もひどいテスト漏れがありました。


対象になる処理はもともと結合テスト項目に入っていて、関係するシステムの担当者とも項目を確認してテストしていたのですが、テストする際に少し手違いがあって【その項目だけ】「後でやりましょう」ということになって、そのまま忘れてしまってこの有様でした。「後でこれこれのテストやる」ってメモまで残していたのに…。


はぁ


たった5分10分のテストが1つ抜けただけでその数十、数百倍の時間を取られてしまうことを考えると、テストするときは本当に気を抜けないな、とあらためて思いました。自分の時間が取られるだけならまだしも、関係者や会社の損害になったら自分だけじゃどうしようもありません。


みんなもお気を付けて。