Cross-Model Verifier: Multi-LLM Result Validation

Use multiple independent LLMs to verify experimental results, catch calculation errors, and validate claims before submission.

Context: $ARGUMENTS

Constants

VERIFICATION_DOC = VERIFICATION_REPORT.md in project root
REVIEWER_MODEL = gpt-5.4 — Via Codex MCP

Motivation

Single-model workflows have a blind spot: if Claude makes an error in evaluation code or metric computation, Claude reviewing its own code is unlikely to catch it. Cross-model verification sends the same evidence to an independent model for parallel analysis.

This is particularly important for:

Metrics that are easy to compute incorrectly (F1 with micro/macro confusion, BLEU tokenization)
Results that seem "too good" (potential data leakage, evaluation on train set)

Cross-Model Verifier: Multi-LLM Result Validation

Use multiple independent LLMs to verify experimental results, catch calculation errors, and validate claims before submission.

Context: $ARGUMENTS

Constants

VERIFICATION_DOC = VERIFICATION_REPORT.md in project root
REVIEWER_MODEL = gpt-5.4 — Via Codex MCP

Motivation

This is particularly important for:

Metrics that are easy to compute incorrectly (F1 with micro/macro confusion, BLEU tokenization)
Results that seem "too good" (potential data leakage, evaluation on train set)

Cross Model Verifier

Cross-Model Verifier: Multi-LLM Result Validation

Context: $ARGUMENTS

Constants

Motivation

Cross Model Verifier

Cross-Model Verifier: Multi-LLM Result Validation

Context: $ARGUMENTS

Constants

Motivation

Workflow

Step 1: Collect Evidence

Step 2: Code Review Verification

Step 3: Metric Recomputation

Step 4: Claim Validation

Step 5: Generate Report

Key Rules

Automation Audit Ops

Github Qa Labels

Jupyter Notebook

Tidb Integrationtest Recorder

Quality Nonconformance

Hugging Face Trackio