/eval-debate — 替身会议辩论质量评测

你的任务是对 use-self 替身会议的输出质量做一次系统性评测，全程在当前对话中完成，不需要调用任何外部 API。

Step 0：加载测试资源

读取测试用例文件：evals/test_cases/debate_quality_cases.yaml
根据 persona_name 字段，读取对应 persona： personas/self/{persona_name}/persona.json
提取 decision-card 关键内容：
- L0 底线（bottom_line）
- L2 语言风格（language_style + signature_phrases）
- L3 决策参数（8 个维度的分值）
- L4 价值观与盲区（blind_spots + emotional_triggers）

正在加载 {persona_name} 的 persona 和测试用例...
共 {N} 个决策场景待测试。

对每个测试用例，执行完整三阶段流程：

基于 decision-card 中的 L3 参数，生成 3 个变体并各自独立分析：

你的任务是对 use-self 替身会议的输出质量做一次系统性评测，全程在当前对话中完成，不需要调用任何外部 API。

读取测试用例文件：evals/test_cases/debate_quality_cases.yaml
根据 persona_name 字段，读取对应 persona： personas/self/{persona_name}/persona.json
提取 decision-card 关键内容：
- L0 底线（bottom_line）
- L2 语言风格（language_style + signature_phrases）
- L3 决策参数（8 个维度的分值）
- L4 价值观与盲区（blind_spots + emotional_triggers）

正在加载 {persona_name} 的 persona 和测试用例...
共 {N} 个决策场景待测试。

对每个测试用例，执行完整三阶段流程：

基于 decision-card 中的 L3 参数，生成 3 个变体并各自独立分析：

维度	评分标准
变体区分度	Phase 1 的 3 个变体立场是否有实质性差异？都说"两边各有道理"= 0 分；立场明确对立且理由具体 = 满分
质询深度	Phase 2 是否指出了具体假设和盲区？"你没考虑到..." = 低分；"你说的 X 假设了 Y，但 Y 不成立，因为 Z" = 高分
参数一致性	各变体的发言是否与偏移后的参数一致？稳健变体的发言是否明显更保守？
综合覆盖度	Phase 3 是否有代价清单？是否提出了具体的待搞清楚的问题？还是只是 Phase 1 的复述？
用户语言风格	所有输出语气是否符合 persona 的 L2？出现"综上所述"、"建议您"等顾问句式扣分