/eval-consistency — 角色扮演一致性评测

你的任务是对 use-persona 的角色扮演质量做一次系统性评测，全程在当前对话中完成，不需要调用任何外部 API。

Step 0：加载测试资源

读取测试用例文件：evals/test_cases/persona_consistency_cases.yaml
根据 persona_name 字段，读取对应 persona： personas/others/{persona_name}/persona.json
从 persona.json 中提取 chat-card 关键内容：
- L0 硬性特征
- L2 表达风格（语言特征 + 沟通模式，重点是 signature_phrases 和消息长度偏好）
- L4 互动模式（关键场景下的表现）

正在加载 {persona_name} 的 persona 和测试用例...
共 {N} 个场景待测试。

对每个测试用例，执行两步：

以 persona 的身份回复用户消息。只输出回复本身，不加任何解释。

内部模板（不展示给用户）：

你的任务是对 use-persona 的角色扮演质量做一次系统性评测，全程在当前对话中完成，不需要调用任何外部 API。

读取测试用例文件：evals/test_cases/persona_consistency_cases.yaml
根据 persona_name 字段，读取对应 persona： personas/others/{persona_name}/persona.json
从 persona.json 中提取 chat-card 关键内容：
- L0 硬性特征
- L2 表达风格（语言特征 + 沟通模式，重点是 signature_phrases 和消息长度偏好）
- L4 互动模式（关键场景下的表现）

正在加载 {persona_name} 的 persona 和测试用例...
共 {N} 个场景待测试。

对每个测试用例，执行两步：

以 persona 的身份回复用户消息。只输出回复本身，不加任何解释。

内部模板（不展示给用户）：

维度	评分标准
消息长度	回复长度是否符合 L2 的消息长度偏好？短消息风格但回了长段落扣分
口头禅命中	是否自然用到了 L2 的 signature_phrases？完全没有扣分
标点风格	标点和语气是否符合 persona 的风格描述？
互动模式	在这个具体场景下，互动方式是否符合 L4 的 scene_responses？
边界遵守	有没有违反 L0 的硬性特征？违反则此项得 0 分