Skill-Datei

Advanced Evaluation

Name: Advanced Evaluation
Author: JackSmack1971

This skill should be used when the user asks to "implement LLM-as-judge", "compare model outputs", "create evaluation rubrics", "mitigate evaluation bias", or mentions direct scoring, pairwise comparison, position bias, evaluation pipelines, or automated quality assessment.

JackSmack19710 Sterne18.04.2026

Beruf
Kategorien: Machine Learning

Skill-Inhalt

Overview

Implement production-grade LLM-as-judge patterns to evaluate model outputs. This skill provides a taxonomy for choosing the right evaluation method and protocols for mitigating systematic biases.

📚 Resources

Resource	Description
Evaluation Frameworks	Choosing between Direct Scoring and Pairwise Comparison.
Bias Mitigation	Protocols for Position, Length, and Verbosity bias.
Rubric Design	Patterns for creating consistent grading standards.
Case Studies

Verwandte Skills

Advanced Evaluation | Skills Pool

Advanced Evaluation

Overview

📚 Resources

Advanced Evaluation

Overview

📚 Resources

Core Decision Framework

Direct Scoring

Pairwise Comparison

Best Practices

Summary

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Advanced Evaluation

Overview

📚 Resources

Advanced Evaluation

Overview

📚 Resources

Core Decision Framework

Direct Scoring

Pairwise Comparison

Best Practices

Related Skills

Summary

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns