Eval ハーネススキル

eval 駆動開発（EDD）原則を実装する Claude Code セッション用の正式な評価フレームワークです。

起動条件

AI アシストワークフローのための eval 駆動開発（EDD）のセットアップ
Claude Code タスク完了のための合格/不合格基準の定義
pass@k メトリクスによるエージェント信頼性の測定
プロンプトやエージェント変更のためのリグレッションテストスイートの作成
モデルバージョン間のエージェントパフォーマンスのベンチマーク

哲学

Eval駆動開発はevalを「AI開発のユニットテスト」として扱う:

実装前に期待される動作を定義
開発中にevalを継続的に実行
各変更でリグレッションを追跡
信頼性測定にpass@kメトリクスを使用

Evalタイプ

Capability Eval

Claudeが以前できなかったことができるようになったかテスト:

[CAPABILITY EVAL: feature-name]
タスク: Claudeが達成すべきことの説明
成功基準:
  - [ ] 基準1
  - [ ] 基準2
  - [ ] 基準3
期待出力: 期待される結果の説明

Eval ハーネススキル

eval 駆動開発（EDD）原則を実装する Claude Code セッション用の正式な評価フレームワークです。

起動条件

AI アシストワークフローのための eval 駆動開発（EDD）のセットアップ
Claude Code タスク完了のための合格/不合格基準の定義
pass@k メトリクスによるエージェント信頼性の測定
プロンプトやエージェント変更のためのリグレッションテストスイートの作成
モデルバージョン間のエージェントパフォーマンスのベンチマーク

哲学

Eval駆動開発はevalを「AI開発のユニットテスト」として扱う:

実装前に期待される動作を定義
開発中にevalを継続的に実行
各変更でリグレッションを追跡
信頼性測定にpass@kメトリクスを使用

Evalタイプ

Capability Eval

Claudeが以前できなかったことができるようになったかテスト:

[CAPABILITY EVAL: feature-name]
タスク: Claudeが達成すべきことの説明
成功基準:
  - [ ] 基準1
  - [ ] 基準2
  - [ ] 基準3
期待出力: 期待される結果の説明

Eval Harness

Eval ハーネススキル

起動条件

哲学

Evalタイプ

Capability Eval

Eval Harness

Eval ハーネススキル

起動条件

哲学

Evalタイプ

Capability Eval

Regression Eval

Graderタイプ

1. コードベースGrader

2. モデルベースGrader

3. Human Grader

メトリクス

pass@k

pass^k

Evalワークフロー

1. 定義（コーディング前）

2. 実装

3. 評価

4. レポート

統合パターン

実装前

実装中

実装後

Evalストレージ

ベストプラクティス

例: 認証の追加

プロダクト Eval（v1.8）

Grader タイプ

pass@k ガイダンス

Eval アンチパターン

最小 Eval アーティファクトレイアウト

Openai Whisper

Voice Call

Prose

Clawhub

Sherpa Onnx Tts

Openai Whisper Api