使用统计显著性、样本量验证、置信区间和发布/延长/停止建议来分析 A/B 测试结果。在评估实验结果、检查测试是否达到显著性、解读拆分测试数据或决定是否发布变体时使用。
以统计严谨性评估 A/B 测试结果,并将发现转化为清晰的产品决策。
你正在为 $ARGUMENTS 分析 A/B 测试结果。
如果用户提供了数据文件(CSV、Excel 或分析导出),请直接读取并分析它们。必要时生成用于统计计算的 Python 脚本。
理解实验:
验证测试设置:
计算统计显著性:
如果用户提供了原始数据,请生成并运行 Python 脚本来计算这些指标。
检查护栏指标:
解读结果:
| 结果 | 建议 |
|---|---|
| 显著正向提升,无护栏指标问题 | 发布 (Ship it) — 100% 推出 |
| 显著正向提升,存在护栏指标担忧 | 调查 (Investigate) — 在发布前权衡利弊 |
| 不显著,有正向趋势 | 延长测试 (Extend the test) — 需要更多数据或更大的效应量 |
| 不显著,持平 | 停止测试 (Stop the test) — 未检测到有意义的差异 |
| 显著负向提升 | 不发布 (Don't ship) — 回滚到对照组,分析原因 |
提供分析摘要:
## A/B 测试结果: [测试名称]
**假设**: [我们的预期]
**时长**: [X 天] | **样本**: [对照组 N / 变体组 M]
| 指标 | 对照组 | 变体组 | 提升 | p 值 | 是否显著? |
|---|---|---|---|---|---|
| [核心指标] | X% | Y% | +Z% | 0.0X | 是/否 |
| [护栏指标] | ... | ... | ... | ... | ... |
**建议**: [发布 / 延长 / 停止 / 调查]
**理由**: [原因]
**后续步骤**: [要做什么]
请逐步思考。保存为 markdown。如果提供了原始数据,请生成用于计算的 Python 脚本。