统计分析技能

描述性统计、趋势分析、异常检测、假设检验，以及何时对统计结论保持谨慎的指导。

描述性统计方法论

集中趋势

根据数据选择合适的集中趋势度量：

情况	使用	原因
对称分布，无异常值	均值	最有效的估计量
偏斜分布	中位数	对异常值具有鲁棒性
分类或有序数据	众数	非数值数据的唯一选项
高度偏斜且有异常值（如每用户营收）	中位数 + 均值	同时报告；两者差距反映偏斜程度

业务指标务必同时报告均值和中位数。 若两者差异显著，数据存在偏斜，单独使用均值会产生误导。

离散程度与变异性

标准差：值偏离均值的典型程度。适用于正态分布数据。
四分位距（IQR）：p25 到 p75 的距离。对异常值具有鲁棒性。适用于偏斜数据。
变异系数（CV）：标准差/均值。用于比较不同量纲指标之间的变异程度。
极差：最大值减最小值。对异常值敏感，但能快速感知数据范围。

业务背景下的分位数

统计分析技能

描述性统计、趋势分析、异常检测、假设检验，以及何时对统计结论保持谨慎的指导。

描述性统计方法论

集中趋势

根据数据选择合适的集中趋势度量：

情况	使用	原因
对称分布，无异常值	均值	最有效的估计量
偏斜分布	中位数	对异常值具有鲁棒性
分类或有序数据	众数	非数值数据的唯一选项
高度偏斜且有异常值（如每用户营收）	中位数 + 均值	同时报告；两者差距反映偏斜程度

业务指标务必同时报告均值和中位数。 若两者差异显著，数据存在偏斜，单独使用均值会产生误导。

离散程度与变异性

标准差：值偏离均值的典型程度。适用于正态分布数据。
四分位距（IQR）：p25 到 p75 的距离。对异常值具有鲁棒性。适用于偏斜数据。
变异系数（CV）：标准差/均值。用于比较不同量纲指标之间的变异程度。
极差：最大值减最小值。对异常值敏感，但能快速感知数据范围。

场景	检验方法	适用时机
比较两组均值	独立样本 t 检验	正态数据，两组
比较两组比例	比例 z 检验	转化率、二元结果
比较配对测量	配对 t 检验	同一实体的前后对比
比较三组以上均值	方差分析（ANOVA）	多个细分或变体
非正态数据，两组	Mann-Whitney U 检验	偏斜指标、有序数据
类别变量之间的关联	卡方检验	两个分类变量

Statistical Analysis

统计分析技能

描述性统计方法论

集中趋势

离散程度与变异性

业务背景下的分位数

Statistical Analysis

统计分析技能

描述性统计方法论

集中趋势

离散程度与变异性

业务背景下的分位数

描述分布

趋势分析与预测

识别趋势

季节性检测

预测（简单方法）

异常值与异常检测

统计方法

处理异常值

时间序列异常检测

假设检验基础

使用场景

框架

常用检验

统计显著性 vs. 实际显著性

样本量考虑

对统计结论保持谨慎的时机

相关性不等于因果关系

多重比较问题

辛普森悖论

幸存者偏差

生态谬误

过度依赖精确数字

Visualization Expert

Data Analyst

Huggingface Hub

Multi Reviewer Patterns

Dbt Transformation Patterns

Startup Financial Modeling