Instrumental Variables & Treatment Effects Skill | Skills Pool

Skill-Datei

Instrumental Variables & Treatment Effects Skill

Econometrics skill for instrumental variables and treatment effect estimation. Activates when the user asks about: "instrumental variables", "IV estimation", "2SLS", "two-stage least squares", "endogeneity", "weak instruments", "first stage", "Sargan test", "overidentification", "propensity score matching", "PSM", "average treatment effect", "ATT", "LATE", "local average treatment effect", "endogenous regressor", "instrument validity", "工具变量", "两阶段最小二乘", "内生性", "弱工具变量", "倾向得分匹配", "平均处理效应", "处理效应", "局部平均处理效应"

sheehe0 Sterne16.04.2026

Beruf
Kategorien: Laborwerkzeuge

Skill-Inhalt

若当前会话由 Coase 研究工作流触发（/idea-discovery / /experiment-bridge / /paper-writing），本 skill 的输出必须按以下规则落入阶段文件，不得自行新建目录或脱离工作流上下文：

/idea-discovery Phase 2 Step 3 (Baseline Design Lock): 返回"模型设定 + 识别假设 + 主要识别风险"三段，由 planner 填入 planner/stage_7_baseline_design.md。此阶段不执行代码。
/experiment-bridge Phase 4 (Run Baseline): 生成并执行主回归代码，主回归表走 table skill 规范化，结果写入 executor/stage_1_run_baseline.md。
/experiment-bridge Phase 5 (Robustness): 提供本方法特有的替代估计量、识别诊断或敏感性检验，写入 executor/stage_2_explanation_robustness.md 对应条目。
/paper-writing Phase 6: 不直接参与。writer 从 executor/ 目录摘录方法描述，不得补跑回归。

若用户未指定工作流（直接提问使用本方法），忽略本节，按下方正文自由执行。

Instrumental Variables & Treatment Effects Skill

This skill covers IV/2SLS estimation and propensity score matching (PSM) for causal inference when treatment is endogenous. It helps identify valid instruments, run 2SLS, test instrument validity, and implement PSM.

Verwandte Skills

Method	Use When
IV / 2SLS	Treatment is endogenous; a valid instrument exists
PSM	Selection on observables assumption is credible; rich covariate data
OLS + controls	Selection on observables, limited instruments

# Python (linearmodels)
from linearmodels.iv import IV2SLS

# Formula: dependent ~ exogenous [endogenous ~ instruments]
model = IV2SLS.from_formula(
    'y ~ 1 + w1 + w2 + [x_endog ~ z1 + z2]', data=df
)
result = model.fit(cov_type='robust')
print(result.summary)

# First-stage diagnostics
print(result.first_stage.diagnostics)
# Check: partial F-stat, Shea partial R²

# R (AER)
library(AER)
iv_model <- ivreg(y ~ x_endog + w1 + w2 | z1 + z2 + w1 + w2, data = df)
summary(iv_model, diagnostics = TRUE)
# Shows: weak instruments F-test, Wu-Hausman endogeneity test, Sargan overID test

* Stata
ivregress 2sls y w1 w2 (x_endog = z1 z2), robust first
estat firststage      // First-stage diagnostics
estat endogenous      // Wu-Hausman test
estat overid          // Sargan-Hansen overidentification test

Test	Null Hypothesis	Interpretation
First-stage F-stat	Instruments are weak	F > 10 → relevant instruments
Wu-Hausman	X is exogenous (OLS consistent)	p < 0.05 → endogeneity confirmed, use IV
Sargan-Hansen	All instruments valid (overID only)	p > 0.05 → instruments pass overID test
Anderson-Rubin	Robust to weak instruments	Use when F-stat is borderline

# Python
from sklearn.linear_model import LogisticRegression
import numpy as np

# Step 1: Estimate propensity scores
lr = LogisticRegression(max_iter=1000)
lr.fit(df[covariates], df['treatment'])
df['pscore'] = lr.predict_proba(df[covariates])[:, 1]

# Step 2: Check common support
import matplotlib.pyplot as plt
df.groupby('treatment')['pscore'].plot.hist(alpha=0.5, bins=30)

# Step 3: Match (nearest neighbor, 1:1 without replacement)
treated = df[df['treatment'] == 1].copy()
control = df[df['treatment'] == 0].copy()

from sklearn.neighbors import NearestNeighbors
nn = NearestNeighbors(n_neighbors=1)
nn.fit(control[['pscore']])
distances, indices = nn.kneighbors(treated[['pscore']])

matched_control = control.iloc[indices.flatten()].copy()
matched_df = pd.concat([treated, matched_control])

# Step 4: Estimate ATT
att = matched_df.groupby('treatment')['y'].mean().diff().iloc[-1]
print(f"ATT: {att:.4f}")

# R (MatchIt)
library(MatchIt)
match_out <- matchit(treatment ~ x1 + x2 + x3, data = df,
                     method = "nearest", ratio = 1, replace = FALSE)
summary(match_out)

# Covariate balance
plot(match_out, type = "jitter")
plot(summary(match_out))

# Estimate ATT
matched_data <- match.data(match_out)
att_model <- lm(y ~ treatment, data = matched_data, weights = weights)
coeftest(att_model, vcov = vcovCL(att_model, ~subclass))

* Stata (psmatch2 from SSC)
psmatch2 treatment x1 x2 x3, outcome(y) neighbor(1) common
pstest x1 x2 x3