Name: Evals
Author: davdunc

Search skills.../

Evals | Skills Pool

Running the **WorkflowName** workflow in the **Evals** skill to ACTION...

Type	Strengths	Weaknesses	Use For
Code-based	Fast, cheap, deterministic, reproducible	Brittle, lacks nuance	Tests, state checks, tool verification
Model-based	Flexible, captures nuance, scalable	Non-deterministic, expensive	Quality rubrics, assertions, comparisons
Human	Gold standard, handles subjectivity	Expensive, slow	Calibration, spot checks, A/B testing

Request Pattern	Route To
Run eval, evaluate suite, run tests, benchmark	`Workflows/RunEval.md`
Compare models, model comparison, A/B test models	`Workflows/CompareModels.md`
Compare prompts, prompt comparison, test prompts	`Workflows/ComparePrompts.md`
Create judge, model grader, evaluation judge	`Workflows/CreateJudge.md`
Create use case, new eval, test case, create suite	`Workflows/CreateUseCase.md`
View results, eval results, scores, pass rate	`Workflows/ViewResults.md`

Trigger	Tool
Run suite	`Tools/AlgorithmBridge.ts`
Log failure	`Tools/FailureToTask.ts log`
Convert failures	`Tools/FailureToTask.ts convert-all`
Create suite	`Tools/SuiteManager.ts create`
Check saturation	`Tools/SuiteManager.ts check-saturation`

# Run an eval suite
bun run ~/.claude/skills/Utilities/Evals/Tools/AlgorithmBridge.ts -s <suite>

# Log a failure for later conversion
bun run ~/.claude/skills/Utilities/Evals/Tools/FailureToTask.ts log "description" -c category -s severity

# Convert failures to test tasks
bun run ~/.claude/skills/Utilities/Evals/Tools/FailureToTask.ts convert-all

# Manage suites
bun run ~/.claude/skills/Utilities/Evals/Tools/SuiteManager.ts create <name> -t capability -d "description"
bun run ~/.claude/skills/Utilities/Evals/Tools/SuiteManager.ts list
bun run ~/.claude/skills/Utilities/Evals/Tools/SuiteManager.ts check-saturation <name>
bun run ~/.claude/skills/Utilities/Evals/Tools/SuiteManager.ts graduate <name>

# Run eval and update ISC row
bun run ~/.claude/skills/Utilities/Evals/Tools/AlgorithmBridge.ts -s regression-core -r 3 -u

| # | What Ideal Looks Like | Verify |
|---|----------------------|--------|
| 1 | Auth bypass fixed | eval:auth-security |
| 2 | Tests all pass | eval:regression |

Grader	Use Case
`string_match`	Exact substring matching
`regex_match`	Pattern matching
`binary_tests`	Run test files
`static_analysis`	Lint, type-check, security scan
`state_check`	Verify system state after execution
`tool_calls`	Verify specific tools were called

Domain	Primary Graders
`coding`	binary_tests + static_analysis + tool_calls + llm_rubric
`conversational`	llm_rubric + natural_language_assert + state_check
`research`	llm_rubric + natural_language_assert + tool_calls
`computer_use`	state_check + tool_calls + llm_rubric

Type	Pass Target	Purpose
Capability	~70%	Stretch goals, measuring improvement potential
Regression	~99%	Quality gates, detecting backsliding

Grader	Use Case
`llm_rubric`	Score against detailed rubric
`natural_language_assert`	Check assertions are true
`pairwise_comparison`	Compare to reference with position swap

Evals

Customization

🚨 MANDATORY: Voice Notification (REQUIRED BEFORE ANY ACTION)

Evals

Customization

🚨 MANDATORY: Voice Notification (REQUIRED BEFORE ANY ACTION)

Evals - AI Agent Evaluation Framework

When to Activate

Core Concepts

Three Grader Types

Evaluation Types

Key Metrics

Workflow Routing

CLI Quick Reference

Quick Reference

CLI Commands

ALGORITHM Integration

Available Graders

Code-Based (Fast, Deterministic)

Model-Based (Nuanced)

Domain Patterns

Task Schema (YAML)

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns