스킬 파일

Data Analysis

Name: Data Analysis
Author: russell-henderson

Statistical reasoning, data interpretation, visualization principles, insight extraction, and discriminating signal from noise

russell-henderson0 스타2026. 3. 18.

직업
카테고리: 철학 및 윤리

스킬 내용

Data Analysis Skill

Invoke when: interpreting data, evaluating statistical claims, choosing appropriate analysis methods, assessing chart/visualization quality, or turning raw numbers into actionable understanding.

Core Discipline

Data analysis is not arithmetic. It is structured reasoning about what a dataset can and cannot tell you, combined with careful communication of that reasoning. Most mistakes in data analysis are not calculation errors — they are interpretation errors.

Before touching numbers, ask:

What question are we answering?
Is this data capable of answering that question?
How was this data collected, and what biases might that introduce?
What would a correct answer look like, and how would we know it when we see it?

Descriptive Statistics

Know what each measure captures:

Statistic	What it measures	Caveat

관련 스킬

Data Analysis | Skills Pool

Trap	Description
Simpson's Paradox	A trend appears in groups but reverses when groups are combined or vice versa. Always check for lurking variables.
Survivorship bias	Analyzing only outcomes that "survived" to be observed misses the full distribution (e.g., studying successful companies, not all startups)
Selection bias	The sample is not representative of the population of interest
Confounding	A third variable explains the relationship between two measured variables
Multiple comparisons	Running many tests means some will be significant by chance; p-values must be adjusted (Bonferroni or similar)
Overfitting	A model that fits training data extremely well may generalize poorly
Ecological fallacy	Conclusions about groups applied incorrectly to individuals

Data type	Appropriate chart
Distribution (continuous)	Histogram, density plot, box plot
Comparison across categories	Bar chart (vertical or horizontal)
Change over time (few series)	Line chart
Correlation between two variables	Scatter plot
Composition (parts of a whole)	Stacked bar chart; pie chart only when values sum to a meaningful whole and there are few slices
Relationship + third variable	Scatter plot with color/size encoding

Mean	Central tendency — sensitive to outliers	Can be misleading with skewed distributions
Median	Central tendency — robust to outliers	Better for income, housing prices, latency
Mode	Most frequent value	Mainly useful for categorical data
Range	Spread — max minus min	Sensitive to extremes; hides internal distribution
Variance / Std Dev	Average deviation from mean	Sensitive to outliers; describes spread in original units (StdDev)
IQR	Middle 50% spread	Robust spread metric; use with median
Percentiles	Position in distribution	More informative than min/max for skewed data

Data Analysis

Data Analysis Skill

Core Discipline

Descriptive Statistics

Data Analysis

Data Analysis Skill

Core Discipline

Descriptive Statistics

Distributions

Probability & Inference

Base Rates

Common Statistical Traps

Correlation vs. Causation

Chart and Visualization Principles

What Makes a Good Chart

Chart Type Selection

Red Flags in Visualizations

Analysis Output Format

Axiom

Matematico Tao

Seo Fundamentals

Yann Lecun Debate

Yann Lecun Filosofia

Explain Like Socrates