Name: Paper Reproduce — 论文复现方法论
Author: xjtulyc

核心原则

先探索后建模 — 永远不要假设变量名和编码，必须从数据中验证
逐步筛选逐步核对 — 每一步样本量都要和论文对比
容忍偏差但记录偏差 — harmonized 数据集和原始数据必然有差异，关键是记录和解释
边干边说 — 每完成一步立即输出中间结果，不要等全部跑完才汇报

复现流程（6 阶段）

Phase 1: 任务理解 + 数据探索

输入: 论文 PDF/任务文档 + 数据文件
输出: 变量映射表 (variable_mapping.json)

精读任务文档，提取：
- 样本筛选流程（每步的 n 和排除条件）
- 因变量、自变量、协变量的定义和编码
- 统计方法（回归类型、标准误类型、标准化方式）
- 期望的表格数值（用于验证）

探索数据结构：

df = pd.read_stata('data.dta')  # 或 read_csv/read_sas
print(f"维度: {df.shape}")
print(f"变量: {df.columns.tolist()}")
# 按前缀分组查看变量
# 检查是否有 wave/time/year 标识

核心原则

先探索后建模 — 永远不要假设变量名和编码，必须从数据中验证
逐步筛选逐步核对 — 每一步样本量都要和论文对比
容忍偏差但记录偏差 — harmonized 数据集和原始数据必然有差异，关键是记录和解释
边干边说 — 每完成一步立即输出中间结果，不要等全部跑完才汇报

复现流程（6 阶段）

Phase 1: 任务理解 + 数据探索

输入: 论文 PDF/任务文档 + 数据文件
输出: 变量映射表 (variable_mapping.json)

精读任务文档，提取：
- 样本筛选流程（每步的 n 和排除条件）
- 因变量、自变量、协变量的定义和编码
- 统计方法（回归类型、标准误类型、标准化方式）
- 期望的表格数值（用于验证）

探索数据结构：

df = pd.read_stata('data.dta')  # 或 read_csv/read_sas
print(f"维度: {df.shape}")
print(f"变量: {df.columns.tolist()}")
# 按前缀分组查看变量
# 检查是否有 wave/time/year 标识

标记	含义	标准
✅	验证	数值接近（允许末位四舍五入差异），显著性一致
⚠️	趋势一致	方向相同，但显著性不同（通常因样本量差异）
❌	未复现	方向相反或差距太大

陷阱	表现	解决
harmonized vs 原始数据	变量名不同、缺失模式不同、编码不同	基于语义+范围搜索变量，不要硬编码变量名
组合变量定义错误	均值偏差大（>1SD）	用 total = sum(parts) 验证；尝试不同的子变量组合
缺失值级联	多变量同时要求非缺失 → 排除量远超论文	分步排除；先排核心变量缺失，再排协变量缺失
分类变量编码	中文标签多义（"未婚"的范围）	`value_counts()` 全部列出，逐一确认
标准化方式	β系数方向对但数值偏大/偏小	确认是全变量标准化还是只标准化连续变量
稳健标准误类型	p 值略有差异	HC0/HC1/HC3 选择；SPSS 默认 HC0
Docker 文件同步	脚本修改后容器内仍是旧版	每次修改后 `docker cp` 同步

Paper Reproduce — 论文复现方法论

核心原则

复现流程（6 阶段）

Phase 1: 任务理解 + 数据探索

Paper Reproduce — 论文复现方法论

核心原则

复现流程（6 阶段）

Phase 1: 任务理解 + 数据探索

Phase 2: 变量构建 + 验证

Phase 3: 样本筛选

Phase 4: 统计分析

描述统计 (Table 1)

回归分析 (Table 2/3)

交互项处理

分层分析

Phase 5: 结果对比 + 偏差分析

Phase 6: 输出文档

输出目录结构

常见陷阱

参考

Goplaces

Research Ops

Editor

Fact Checker

Deep Research

Academic Researcher