A/B 测试分析

以统计严谨性评估 A/B 测试结果，并将发现转化为清晰的产品决策。

你正在为 $ARGUMENTS 分析 A/B 测试结果。

如果用户提供了数据文件（CSV、Excel 或分析导出），请直接读取并分析它们。必要时生成用于统计计算的 Python 脚本。

理解实验:
- 假设是什么？
- 改变了什么（变体）？
- 核心指标是什么？有哪些护栏指标 (Guardrail Metrics)？
- 测试运行了多久？
- 流量分配比例是多少？
验证测试设置:
- 样本量 (Sample Size): 样本量是否足够大，能检测到预期的效应量？
  - 使用公式: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
  - 如果测试动力不足（<80% power），请标注。
- 时长: 测试是否运行了至少 1-2 个完整的业务周期？
- 随机化: 是否有样本比例失配 (SRM) 的证据？
- 新颖性/首因效应 (Novelty/Primacy Effects): 是否有足够的时间消除初始行为变化的影响？
计算统计显著性:
- 对照组和变体组的 转化率
- : (variant - control) / control × 100

以统计严谨性评估 A/B 测试结果，并将发现转化为清晰的产品决策。

你正在为 $ARGUMENTS 分析 A/B 测试结果。

如果用户提供了数据文件（CSV、Excel 或分析导出），请直接读取并分析它们。必要时生成用于统计计算的 Python 脚本。

理解实验:
- 假设是什么？
- 改变了什么（变体）？
- 核心指标是什么？有哪些护栏指标 (Guardrail Metrics)？
- 测试运行了多久？
- 流量分配比例是多少？
验证测试设置:
- 样本量 (Sample Size): 样本量是否足够大，能检测到预期的效应量？
  - 使用公式: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
  - 如果测试动力不足（<80% power），请标注。
- 时长: 测试是否运行了至少 1-2 个完整的业务周期？
- 随机化: 是否有样本比例失配 (SRM) 的证据？
- 新颖性/首因效应 (Novelty/Primacy Effects): 是否有足够的时间消除初始行为变化的影响？
计算统计显著性:
- 对照组和变体组的 转化率
- : (variant - control) / control × 100

结果	建议
显著正向提升，无护栏指标问题	发布 (Ship it) — 100% 推出
显著正向提升，存在护栏指标担忧	调查 (Investigate) — 在发布前权衡利弊
不显著，有正向趋势	延长测试 (Extend the test) — 需要更多数据或更大的效应量
不显著，持平	停止测试 (Stop the test) — 未检测到有意义的差异
显著负向提升	不发布 (Don't ship) — 回滚到对照组，分析原因

Ab Test Analysis