インシデントログの作成と過去の類似インシデント検索を自動化。修正提案は通常のClaude Code作業に委譲
name incident-triage-lite description インシデントログの作成と過去の類似インシデント検索を自動化。修正提案は通常のClaude Code作業に委譲 triggers ["エラー出た","incident","〇〇が動かない","インシデント","障害報告"] tools Read, Write, Edit, Glob, Grep Incident Triage Lite スキル 概要 インシデント発生時にログ作成 + 過去の類似インシデント検索を行う軽量トリアージスキル。 コード修正・根本原因分析は通常のClaude Code作業に委譲する。 前提条件 依存 パス 必須 インシデント記録 ${CLIENT_DIR}/incidents/ YES ナレッジベース ${KNOWLEDGE_DIR}/ あれば参照 実行フロー Step 1: エラー内容の受け取り 入力パターン: A) テキスト: 「Cloud Runで500エラーが出てる」 B) ログ貼り付け: エラースタックトレースをそのまま提示 C) 参照: 「Slackの#ai-opsで報告があった」 Step 2: 過去の類似インシデント検索 ${CLIENTS_DIR}//incidents/ 配下を全Grep(キーワードマッチ) ${KNOWLEDGE_DIR}/INCIDENT_REPORT_.md も検索 マッチしたインシデントを類似度順に表示: 【過去の類似インシデント】
YYYYMMDD [概要]
YYYY-MM-DD HH:MM
[owner / 自動検知]
ユーザー影響: [あり/なし]
[エラー内容の詳細記述]
[エラーログがあれば貼り付け]
| 日時 | アクション | 結果 |
|---|---|---|
| YYYY-MM-DD HH:MM | インシデントログ作成 | 本ファイル |
| Step 4: 保存 + git commit | ||
| ${CLIENT_DIR}/incidents/INCIDENT_YYYYMMDD_概要.md | ||
| として保存 | ||
| クライアント特定できない場合 → | ||
| ${KNOWLEDGE_DIR}/INCIDENT_REPORT_概要_YYYYMMDD.md | ||
| git commit | ||
| Step 5: 次のアクション提示 | ||
| 【インシデントログ作成完了】 |
原因調査に進みますか?(通常のClaude Code作業として実行) Step 6: インシデントクローズ時のL5学習連携 インシデントがクローズされた(全チェックボックス完了)時点で、leak-learnerのcorrections.jsonlにエントリを追加する: {"skill": "incident-triage-lite", "pattern": "{症状の要約}", "correction": "{修正内容の要約}", "source": "{インシデントファイルパス}"} これにより、同種のインシデント修正パターンがL5学習候補として蓄積される。 スコープ外(通常のClaude Code作業で対応) コードの修正提案・実行 Cloud Runログのリアルタイム取得(gcloud CLI) 根本原因の自動分析 修正後のデプロイ エラーハンドリング エラー 対処 incidents/ディレクトリ不在 自動作成して続行 エラー情報が不十分 「もう少し詳しく教えてください: いつ・どこで・何をしていた時?」 設計原則 原則 出典 適用 記録ファースト session-protocol.md 原因究明より先にインシデントログを作成。記録が残ることが最優先 過去事例の自動参照 DRY / ナレッジベース原則 手動で思い出すのではなく、必ずGrepで類似インシデントを機械的に検索 修正は委譲 単一責任原則 このスキルはトリアージ(分類・記録)のみ。修正コードの生成は通常Claude Code作業に任せる Config カテゴリ キー デフォルト値 説明 パス client_incidents ${CLIENT_DIR}/incidents/ クライアント別インシデント保存先 パス knowledge_base ${KNOWLEDGE_DIR}/ 社内ナレッジベース 命名 incident_filename INCIDENT_YYYYMMDD_{概要}.md インシデントファイル名テンプレート 命名 knowledge_filename INCIDENT_REPORT_{概要}_{YYYYMMDD}.md ナレッジベース側ファイル名 セキュリティ 項目 ルール エラーログ中のトークン/認証情報 インシデントログ記録時にマスキング( xoxb-*** , Bearer *** ) PII(個人情報) エラーログにメールアドレス・電話番号が含まれる場合は伏字にする BLOCKINGゲート Step 失敗条件 動作 Step 1 エラー内容が空・不明瞭 STOP + 「いつ・どこで・何をしていた時のエラーか教えてください」 Step 2 incidents/ ディレクトリ配下のGrepが全失敗 続行(類似なしとして報告) Step 4 保存先ディレクトリが存在しない 自動作成して続行(BLOCKしない) Step 4 git commit 失敗 STOP + 「git statusを確認してください」 エスカレーション 状況 対応 影響度 Critical と判定(本番サービス停止) ownerに確認: 「本番影響あり。即時対応を優先しますか?」 同一インシデントが3回目以上の再発 ownerに確認: 「再発パターン検知。根本対策の優先度を上げますか?」 クライアント特定ができない ownerに確認: 「どのクライアント/サービスのインシデントか教えてください」 合成可能性 連携スキル 関係 トリガー cost-monitor 並列 コスト急増がインシデントのトリガーになる場合がある slack-brain-sync 前工程 Slackの#ai-opsで報告されたエラーをbrain syncで取り込み後、インシデント起票 submodule-sync 前工程 サブモジュール同期失敗がインシデントとして報告される場合 leak-learner 学習 owner指摘をlessons/に記録 汎用性 クライアント別パス(${CLIENT_DIR}/incidents/)とナレッジベースパス(${KNOWLEDGE_DIR}/)はConfig表で外部化済み。パスを変更すれば他組織でも利用可能。 他のスキルとの連携 スキル 関係 説明 cost-monitor 並列 コスト急増がインシデントのトリガーになる場合がある slack-brain-sync 前工程 Slackの#ai-opsで報告されたエラーをbrain syncで取り込み後、インシデント起票 submodule-sync 前工程 サブモジュール同期失敗がインシデントとして報告される場合 leak-learner 学習 owner指摘をlessons/に記録。インシデント修正パターンを学習候補として送信 このスキルがやらないこと コードの修正・パッチ適用 — 通常のClaude Code作業に委譲 根本原因分析(RCA)の実施 — トリアージ(分類・記録)のみ Cloud Runログのリアルタイム取得 — gcloud CLIで直接実行 修正後のデプロイ・リリース — ship スキルまたは手動操作 SLAの判定・顧客通知 — ownerの判断事項