本 skill 总结了从零搭建三套出题管线（CTW/RDL/AP）的完整经验，提炼成可复用的方法论。适用于任何标准化考试的新题型开发。

核心理念

搭建出题管线不是"写一个 prompt 让 AI 出题"。它是一个数据驱动的工程流程：

真题采集 → 量化分析 → Profile 建模 → Prompt 工程 → 校验体系 → AI 审核 → 压力测试 → 迭代优化

每一步都有明确的输入、输出和质量标准。跳过任何一步都会导致最终出题质量不达标。

Phase 1: 真题研究（2-3天）

目标

搞清楚"真题的味道到底是什么" — 把模糊的"感觉像真题"变成可量化的指标。这是整个管线最重要的阶段，深度决定了后续出题质量的上限。

步骤

1.1 题型规格确认

从官方来源（ETS/British Council/EDB 等）确认题目的精确格式
确认：文本长度、题目数量、选项格式、评分方式、时间限制
区分子类型（如 RDL 有 short 40-50词/2题和 long 100-150词/3题）
搜索关键词模式："题型名" sample questions ETS official、"题型名" 样题真题解析

1.2 样题采集（广度搜集）

优先级：官方样题 > 权威备考网站 > 第三方练习题

本 skill 总结了从零搭建三套出题管线（CTW/RDL/AP）的完整经验，提炼成可复用的方法论。适用于任何标准化考试的新题型开发。

核心理念

搭建出题管线不是"写一个 prompt 让 AI 出题"。它是一个数据驱动的工程流程：

真题采集 → 量化分析 → Profile 建模 → Prompt 工程 → 校验体系 → AI 审核 → 压力测试 → 迭代优化

每一步都有明确的输入、输出和质量标准。跳过任何一步都会导致最终出题质量不达标。

Phase 1: 真题研究（2-3天）

目标

搞清楚"真题的味道到底是什么" — 把模糊的"感觉像真题"变成可量化的指标。这是整个管线最重要的阶段，深度决定了后续出题质量的上限。

步骤

1.1 题型规格确认

从官方来源（ETS/British Council/EDB 等）确认题目的精确格式
确认：文本长度、题目数量、选项格式、评分方式、时间限制
区分子类型（如 RDL 有 short 40-50词/2题和 long 100-150词/3题）
搜索关键词模式："题型名" sample questions ETS official、"题型名" 样题真题解析

1.2 样题采集（广度搜集）

优先级：官方样题 > 权威备考网站 > 第三方练习题

维度	分析什么	输出指标
词汇	学术词覆盖率、词长分布、词频	AWL 2.7%, avg 5.7 chars
句法	被动语态、从句、句长变化	passive 0.23/sent, CV 0.344
篇章	过渡词、模糊表达、定义模式	hedging 0.93%, transitions 8.5/篇
题干	措辞模式、平均长度、开头词频	"According to" 29%
选项	长度平衡、语法平行、正确选项偏长比	parallel 97%, longest 34%
干扰项	每种题型的干扰项策略分布	wrong_detail 31%, not_mentioned 29%
结构	修辞模式、段落角色、主题句规律	100% topic sentence, 91% cohesion
映射	正确答案与原文的改写策略、词汇重叠率	factual 58%, inference 32%

干扰项类型	机制	制造公式
语义联想陷阱	取 speaker/passage 关键词，围绕其关联概念造句	`关键词 → 联想概念 → 合理句子`
离题但合法	语法完美、独立成立、但和语境无关	`在另一个对话/语境中完全合理的句子`
答非所问	回答了另一类问题（问 where 答 when）	`识别问题类型 → 换一种类型回答`
多义词陷阱	同一个词的不同含义	`识别关键词的其他含义 → 围绕该含义造句`
时态/语境错位	正确内容但时间框架或社交场合不对	`正确概念 + 错误时态/场合`

范式	占比	难度	机制
context_shift	31%	Hard	不回答字面问题，解决背后真正需求
idiomatic	25%	Med-Hard	使用习语/固定搭配（I'm all ears）
counter_question	19%	Medium	用反问推进对话（How about tomorrow?）
marker_led_indirect	19%	Medium	话语标记 + 间接回应（Actually..., Well...）
direct_topical	6%	Easy	直接回答字面问题

因素	描述	量化指标
会话动力	正确答案是否推进对话	31% 能引出对方下一句话
语域匹配	speaker 和 answer 的正式度是否一致	69% 中性, 0% 正式
情感确认	对方表达困扰时是否先确认情绪	表达困扰 → 正确答案含 softener
信息经济	回答是否刚好够用，不多不少	平均 5.7 词, max 10
话语标记	是否用 Actually/Well/Maybe 等信号词	37.5% 含话语标记

杠杆	Easy	Medium	Hard
正确答案直接度	直接给事实	间接但相关	完全不回答字面问题
Word trap 强度	明显不对	看似合理	多义词陷阱
Speaker 句子类型	明确特殊疑问句	是非/否定问	陈述句（需推断意图）
习语要求	无	常见话语标记	需识别习语

Marker	权重	目标值	检测方法
间接正确答案	25%	40-50% of items	分析正确答案是否直接回答字面问题
Word trap 干扰项	20%	80%+ of items	检测干扰项与原文的词汇重叠
干扰项类型多样	15%	≥2 种/题	统计每题的干扰项类型数
自然口语语域	15%	60%+ 含缩写	检测 contractions
建设性正确基调	10%	100%	正确答案是否帮助/推进

差距	严重度	修复方向
AI 正确答案都是直接回答	高	在 prompt 中强制 40-50% 间接回答
答案位置聚集 B/C	高	prompt 中预分配答案位置
Word trap 质量不够	中	在 prompt 中给出 word trap 制造公式+实例
正确答案太长	中	设上限（如 ≤10 词）
缺话语标记	低	要求 30%+ 含 Actually/Well/Maybe

Speaker 模式	坏干扰项	为什么有歧义
"Do you know which chapters...?"	"I haven't read the chapters yet either."	表达同理心，是自然回应
"Do you know if this journal is online?"	"I read it online yesterday."	间接确认了"有线上版"
"Where's the best place to park?"	"It's on the north side."	给了有用方位信息
"Do you know when the shuttle leaves?"	"Yes, I know the schedule."	自然的对话开头
"Is the gym still open?"	"Yes, I was there yesterday."	暗示gym是开放的

题型	批量大小	Audit 拦截率	典型问题
RDL	10	5-10%	AI 答案与标注不一致
AP	5	3-5%	答案与原文不匹配
LCR	10	10-20%	干扰项也是合理回应（歧义）
CTW	10	0%	机械挖空无需审核

测试项	目标	方法
通过率	≥60%	生成 30 题，统计 accepted/total
AI 审核准确率	≥80% 一致	对 accepted 的题跑审核
答案分布	各 25%±10%	统计 A/B/C/D 分布
话题覆盖	≥5 种不同话题	topic breadth 分析
跨 item 相似度	<20% Jaccard	pairwise 词汇重叠
用户体验	能正常做题	实际做一遍

问题	根因	解法
通过率太低 (20%)	校验太严 or prompt 约束冲突	把 hedging/passive 从 error 降级为 warning
全部 hard 难度	难度词表太窄	扩充 EASY_WORDS 列表
文章太短	AI 把"easy"理解为"短"	去掉 difficulty 参数，统一生成 medium
答案偏 B	AI 默认偏好	在 prompt 中预分配答案位置
金额缺失	prompt 说了但 AI 没听	在 item spec 里直接指定 "MUST INCLUDE $"
话题重复	没有去重	传 excludeSubjects 到 prompt
JSON 截断	批量太大	限制 MAX_BATCH ≤ 10
干扰项太弱	未指定策略	按题型列出干扰项制造百分比

场景	触发条件	后果
AI 评分超时	DeepSeek 响应 >90s	catch 执行，但如果只在 success 分支调 saveSess()，记录丢失
AI 评分解析失败	返回内容格式异常	同上，catch 路径没有保存
评分进行中关闭页面	用户关闭浏览器标签	fetch 被 abort，catch 可能不执行
评分进行中路由切换	用户点"返回"或浏览器后退	组件卸载，async 函数被中断
网络断开	fetch 失败	catch 执行但用户可能已离开

指标	CTW	RDL	AP
开发周期	1 天	2 天	1.5 天
通过率	90%	96-100%	100%
AI 审核一致率	98%	93%	100%
平均每批生成	10 题	10 题	3 题
max_tokens	4000	8000	8192
迭代轮数	5 轮	4 轮	2 轮
核心难点	文章太短	金额/时间缺失	干扰项质量

搭建新题型出题管线的完整方法论

核心理念

Phase 1: 真题研究（2-3天）

目标

步骤

搭建新题型出题管线的完整方法论

核心理念

Phase 1: 真题研究（2-3天）

目标

步骤

关键产出

常见坑

实际案例：LCR 题型的研究过程

Phase 2: Prompt 工程（1-2天）

目标

Prompt 架构

核心原则

Prompt Builder 代码模式

关键产出

Phase 3: 校验体系（0.5天）

目标

三级校验架构

3.1 歧义风险检测（关键！）

批次校验

ETS Flavor 评分模式

关键产出

Phase 4: AI 审核 + 歧义防御（1天）

目标

三层防御架构

Layer 1: Prompt 层防御

Layer 2: Validator 层检测

Layer 3: AI Audit 层

审核模式

审核参数

审核效果实测

反馈闭环

关键产出

常见坑

Phase 5: 生成脚本（0.5天）

目标

标准流程

JSON Salvage 机制

批量限制（经验值）

关键产出

Phase 6: 压力测试 + 迭代（1-2天）

测试计划

常见问题 + 解法

迭代循环

Phase 7: 前端集成（1天）

标准集成点

Session 数据设计

7.1 Session 防丢失（关键！涉及 AI 评分的任务必须做）

丢失场景分析

三层防丢失架构

实现代码模式

保存的失败记录格式

防丢失检查清单

常见坑

清单：搭建新题型需要创建的文件

经验数据：三条管线的实际表现

Update Skills

Eval Harness

Ecc Tools Cost Audit

Code Tour

Rules Distill

Design System