マルチエージェント敵対的検証フレームワーク。リストを作り、2回チェックする。問題があれば、良くなるまで修正する。

核心的な洞察: 単一のエージェントが自身の出力をレビューすると、その出力を生成したのと同じバイアス、知識のギャップ、体系的なエラーを共有します。共有コンテキストを持たない2人の独立したレビュアーが、この障害モードを打破します。

起動条件

以下の場合にこのスキルを呼び出します:

出力が公開、デプロイ、またはエンドユーザーに利用される場合
コンプライアンス、規制、またはブランドの制約を適用する必要がある場合
人間のレビューなしにコードが本番環境にデプロイされる場合
コンテンツの正確性が重要な場合（技術ドキュメント、教育資料、顧客向けコピー）
スポットチェックでは体系的なパターンを見逃すような大規模バッチ生成の場合
ハルシネーションのリスクが高い場合（主張、統計、API リファレンス、法的文言）

内部ドラフト、探索的リサーチ、または決定的な検証が可能なタスク（それらにはビルド/テスト/lint パイプラインを使用）には使用しないでください。

アーキテクチャ

┌─────────────┐
│  GENERATOR   │  Phase 1: Make a List
│  (Agent A)   │  成果物を生成
└──────┬───────┘
       │ output
       ▼
┌──────────────────────────────┐
│     DUAL INDEPENDENT REVIEW   │  Phase 2: Check It Twice
│                                │
│  ┌───────────┐ ┌───────────┐  │  2つのエージェント、同一ルーブリック、
│  │ Reviewer B │ │ Reviewer C │  │  共有コンテキストなし
│  └─────┬─────┘ └─────┬─────┘  │
│        │              │        │
└────────┼──────────────┼────────┘
         │              │
         ▼              ▼
┌──────────────────────────────┐
│        VERDICT GATE           │  Phase 3: Naughty or Nice
│                                │
│  B passes AND C passes → NICE  │  両方がパスする必要あり。
│  Otherwise → NAUGHTY           │  例外なし。
└──────┬──────────────┬─────────┘
       │              │
    NICE           NAUGHTY
       │              │
       ▼              ▼
   [ SHIP ]    ┌─────────────┐
               │  FIX CYCLE   │  Phase 4: Fix Until Nice
               │              │
               │ iteration++  │  全フラグを収集。
               │ if i > MAX:  │  全問題を修正。
               │   escalate   │  両レビュアーを再実行。
               │ else:        │  収束するまでループ。
               │   goto Ph.2  │
               └──────────────┘

起動条件

以下の場合にこのスキルを呼び出します:

出力が公開、デプロイ、またはエンドユーザーに利用される場合

コンプライアンス、規制、またはブランドの制約を適用する必要がある場合

人間のレビューなしにコードが本番環境にデプロイされる場合

コンテンツの正確性が重要な場合（技術ドキュメント、教育資料、顧客向けコピー）

スポットチェックでは体系的なパターンを見逃すような大規模バッチ生成の場合

ハルシネーションのリスクが高い場合（主張、統計、API リファレンス、法的文言）

アーキテクチャ

┌─────────────┐ │ GENERATOR │ Phase 1: Make a List │ (Agent A) │ 成果物を生成 └──────┬───────┘ │ output ▼ ┌──────────────────────────────┐ │ DUAL INDEPENDENT REVIEW │ Phase 2: Check It Twice │ │ │ ┌───────────┐ ┌───────────┐ │ 2つのエージェント、同一ルーブリック、 │ │ Reviewer B │ │ Reviewer C │ │ 共有コンテキストなし │ └─────┬─────┘ └─────┬─────┘ │ │ │ │ │ └────────┼──────────────┼────────┘ │ │ ▼ ▼ ┌──────────────────────────────┐ │ VERDICT GATE │ Phase 3: Naughty or Nice │ │ │ B passes AND C passes → NICE │ 両方がパスする必要あり。 │ Otherwise → NAUGHTY │ 例外なし。 └──────┬──────────────┬─────────┘ │ │ NICE NAUGHTY │ │ ▼ ▼ [ SHIP ] ┌─────────────┐ │ FIX CYCLE │ Phase 4: Fix Until Nice │ │ │ iteration++ │ 全フラグを収集。 │ if i > MAX: │ 全問題を修正。 │ escalate │ 両レビュアーを再実行。 │ else: │ 収束するまでループ。 │ goto Ph.2 │ └──────────────┘

基準	合格条件	不合格シグナル
事実の正確性	すべての主張がソース資料または常識で検証可能	捏造された統計、間違ったバージョン番号、存在しない API
ハルシネーションなし	捏造されたエンティティ、引用、URL、参照がない	存在しないページへのリンク、出典のない引用
完全性	仕様のすべての要件が対応されている	欠落セクション、スキップされたエッジケース、不完全なカバレッジ
コンプライアンス	すべてのプロジェクト固有の制約をパス	禁止用語の使用、トーン違反、規制非準拠
内部一貫性	出力内に矛盾がない	セクション A が X と言い、セクション B が X でないと言う
技術的正確性	コードがコンパイル/実行される、アルゴリズムが健全	構文エラー、ロジックバグ、間違った計算量の主張

障害モード	症状	緩和策
無限ループ	レビュアーが修正後も新しい問題を見つけ続ける	最大イテレーション上限（3）。エスカレーション。
ラバースタンプ	両方のレビュアーがすべてを合格させる	敵対的プロンプト: 「あなたの仕事は問題を見つけることであり、承認することではない。」
主観的ドリフト	レビュアーがエラーではなくスタイルの好みにフラグを立てる	客観的な合格/不合格基準のみの厳密なルーブリック
修正による退行	問題 A の修正が問題 B を引き起こす	各ラウンドの新しいレビュアーが退行を検出
レビュアーの一致バイアス	両方のレビュアーが同じものを見逃す	独立性により緩和されるが、排除されない。重要な出力の場合、3人目のレビュアーまたは人間のスポットチェックを追加。
コスト爆発	大きな出力に対する過多なイテレーション	バッチサンプリングパターン。検証サイクルごとの予算上限。

スキル	関係
Verification Loop	決定的チェック（ビルド、lint、テスト）に使用。Santa はセマンティックチェック（正確性、ハルシネーション）に使用。verification-loop を最初に実行し、Santa を2番目に実行。
Eval Harness	Santa Method の結果が eval メトリクスにフィードされる。Santa 実行全体の pass@k を追跡し、ジェネレーター品質を経時的に測定。
Continuous Learning v2	Santa の発見がインスティンクトになる。同じ基準での繰り返しの失敗 → そのパターンを回避する学習された振る舞い。
Strategic Compact	コンパクト化の前に Santa を実行。検証中にレビューコンテキストを失わない。

Santa Method

起動条件

アーキテクチャ

Santa Method

起動条件

アーキテクチャ

フェーズ詳細

フェーズ 1: Make a List（生成）

フェーズ 2: Check It Twice（独立デュアルレビュー）

ルーブリック設計

ドメイン固有のルーブリック拡張

フェーズ 3: Naughty or Nice（判定ゲート）

フェーズ 4: Fix Until Nice（収束ループ）

実装パターン

パターン A: Claude Code サブエージェント（推奨）

パターン B: シーケンシャルインライン（フォールバック）

パターン C: バッチサンプリング

障害モードと緩和策

他のスキルとの統合

メトリクス

コスト分析

1password

Springboot Security

Security Review

Laravel Security

Security Review

Django Security