Name: Eval Harness
Author: Rx-K8

Eval Harness スキル

評価駆動開発（EDD）原則を実装する、Claude Code セッション用の正式な評価フレームワーク。

哲学

評価駆動開発は、評価を「AI 開発の単体テスト」として扱います:

実装前に期待される動作を定義
開発中に評価を継続的に実行
各変更でのリグレッションを追跡
信頼性測定に pass@k メトリクスを使用

評価タイプ

機能評価

Claude が以前できなかったことができるかテスト:

[CAPABILITY EVAL: feature-name]
タスク: Claude が達成すべきことの説明
成功基準:
  - [ ] 基準 1
  - [ ] 基準 2
  - [ ] 基準 3
期待される出力: 期待される結果の説明

リグレッション評価

変更が既存の機能を壊さないことを保証:

[REGRESSION EVAL: feature-name]
ベースライン: SHA またはチェックポイント名
テスト:
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
結果: X/Y が合格（以前は Y/Y）

Eval Harness

Eval Harness

Eval Harness スキル

哲学

評価タイプ

機能評価

リグレッション評価

グレーダータイプ

1. コードベースのグレーダー

2. モデルベースのグレーダー

3. 人間グレーダー

メトリクス

pass@k

pass^k

評価ワークフロー

1. 定義（コーディング前）

2. 実装

3. 評価

4. レポート

統合パターン

実装前

実装中

実装後

評価ストレージ

ベストプラクティス

例: 認証の追加

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2