통계 검정 선택 의사결정 트리, 검정별 가정/공식/해석 가이드, 효과 크기와 검정력 분석. '통계 검정', 't-검정', 'ANOVA', '카이제곱', '상관분석', 'p-value', '가설 검정', '정규성 검정', '비모수 검정', '효과 크기' 등 통계 분석 방법 선택 시 이 스킬을 사용한다. analyst의 통계 분석 역량을 강화한다. 단, 데이터 정제나 시각화는 이 스킬의 범위가 아니다.
데이터 유형과 분석 목적에 따라 적절한 통계 검정을 선택하고 해석하는 가이드.
비교할 것이 무엇인가?
├── 두 그룹의 평균 차이
│ ├── 독립 표본 → 정규 분포? → Yes: 독립 t-검정
│ │ → No: Mann-Whitney U
│ └── 대응 표본 → 정규 분포? → Yes: 대응 t-검정
│ → No: Wilcoxon 부호순위
├── 세 그룹 이상 평균 차이
│ ├── 독립 → 정규 분포? → Yes: One-way ANOVA → 사후: Tukey HSD
│ │ → No: Kruskal-Wallis → 사후: Dunn
│ └── 반복 측정 → Repeated Measures ANOVA / Friedman
├── 두 변수의 관계
│ ├── 연속 × 연속 → 선형? → Yes: Pearson 상관
│ │ → No: Spearman 순위 상관
│ └── 범주 × 범주 → 카이제곱 독립성 검정
├── 비율 차이
│ ├── 두 그룹 → Z-검정 (비율)
│ └── 세 그룹 이상 → 카이제곱 동질성 검정
└── 분포 검정
├── 정규성 → Shapiro-Wilk (n<5000) / K-S test
└── 등분산 → Levene's test / Bartlett's test
from scipy import stats
# 가정 확인
# 1. 정규성
stat, p = stats.shapiro(group_a)
print(f"정규성 검정: p={p:.4f}")
# 2. 등분산
stat, p = stats.levene(group_a, group_b)
print(f"등분산 검정: p={p:.4f}")
# 검정 수행
if levene_p >= 0.05:
t, p = stats.ttest_ind(group_a, group_b) # 등분산