평가 하네스 스킬

Claude Code 세션을 위한 공식 평가 프레임워크로, 평가 주도 개발(EDD) 원칙을 구현합니다.

활성화 시점

AI 지원 워크플로우에 평가 주도 개발(EDD) 설정 시
Claude Code 작업 완료에 대한 합격/불합격 기준 정의 시
pass@k 메트릭으로 에이전트 신뢰성 측정 시
프롬프트 또는 에이전트 변경에 대한 회귀 테스트 스위트 생성 시
모델 버전 간 에이전트 성능 벤치마킹 시

철학

평가 주도 개발은 평가를 "AI 개발의 단위 테스트"로 취급합니다:

구현 전에 예상 동작 정의
개발 중 지속적으로 평가 실행
각 변경 시 회귀 추적
신뢰성 측정을 위해 pass@k 메트릭 사용

평가 유형

기능 평가

Claude가 이전에 할 수 없었던 것을 할 수 있는지 테스트:

[CAPABILITY EVAL: feature-name]
Task: Description of what Claude should accomplish
Success Criteria:
  - [ ] Criterion 1
  - [ ] Criterion 2
  - [ ] Criterion 3
Expected Output: Description of expected result

평가 하네스 스킬

Claude Code 세션을 위한 공식 평가 프레임워크로, 평가 주도 개발(EDD) 원칙을 구현합니다.

활성화 시점

AI 지원 워크플로우에 평가 주도 개발(EDD) 설정 시
Claude Code 작업 완료에 대한 합격/불합격 기준 정의 시
pass@k 메트릭으로 에이전트 신뢰성 측정 시
프롬프트 또는 에이전트 변경에 대한 회귀 테스트 스위트 생성 시
모델 버전 간 에이전트 성능 벤치마킹 시

철학

평가 주도 개발은 평가를 "AI 개발의 단위 테스트"로 취급합니다:

구현 전에 예상 동작 정의
개발 중 지속적으로 평가 실행
각 변경 시 회귀 추적
신뢰성 측정을 위해 pass@k 메트릭 사용

평가 유형

기능 평가

Claude가 이전에 할 수 없었던 것을 할 수 있는지 테스트:

[CAPABILITY EVAL: feature-name]
Task: Description of what Claude should accomplish
Success Criteria:
  - [ ] Criterion 1
  - [ ] Criterion 2
  - [ ] Criterion 3
Expected Output: Description of expected result

Eval Harness

평가 하네스 스킬

활성화 시점

철학

평가 유형

기능 평가

Eval Harness

평가 하네스 스킬

활성화 시점

철학

평가 유형

기능 평가

회귀 평가

채점자 유형

1. 코드 기반 채점자

2. 모델 기반 채점자

3. 사람 채점자

메트릭

pass@k

pass^k

평가 워크플로우

1. 정의 (코딩 전)

2. 구현

3. 평가

4. 보고서

통합 패턴

구현 전

구현 중

구현 후

평가 저장소

모범 사례

예시: 인증 추가

제품 평가 (v1.8)

채점자 유형

pass@k 가이드

평가 안티패턴

최소 평가 산출물 레이아웃

Openclaw Release Maintainer

Verify

Flow

Fix

Hygiene

Add Policy