Eval | Skills Pool

Skill-Datei

Eval

Run the eval framework to measure agent output quality.

eysenfalk0 Sterne13.02.2026

Beruf: Software-Qualitätssicherungsanalysten und Tester
Kategorien: LLM & AI

Skill-Inhalt

/eval — Run Agent Quality Evals

Execute eval scenarios to measure agent output quality mechanically.

What It Does

Reads scenario definitions from evals/scenarios/
For each scenario: sets up workspace, runs agent, checks output
Scores: files exist, content matches, forbidden patterns absent, commands pass
Saves results to evals/results/ as timestamped JSON
Prints summary scorecard

Usage

Run all scenarios:

./scripts/eval.sh

Run a specific scenario:

./scripts/eval.sh evals/scenarios/$ARGUMENTS

After Running

Verwandte Skills