Name: Pilot Coding
Author: itpretty

Skills suchen.../

Pilot Coding | Skills Pool

目录	输出文件名
`Articles_Analyses/piloting/PDF_Hu/`	`PilotCoding_Hu_<YYYYMMDD_HHmmss>.csv`
`Articles_Analyses/piloting/PDF_Liu/`	`PilotCoding_Liu_<YYYYMMDD_HHmmss>.csv`
`Articles_Analyses/piloting/PDF_Shi/`	`PilotCoding_Shi_<YYYYMMDD_HHmmss>.csv`
`Articles_Analyses/piloting/PDF_Wei/`	`PilotCoding_Wei_<YYYYMMDD_HHmmss>.csv`

#180: 识别到 4 个 Study，共 7 个编码单元（Study 2 有 2 个独立样本，Study 3 有 2 个独立样本，Study 4 有 2 个独立样本）

#151: 识别Study数=6, 提取行数=6 ✓

子代理	目录	输出 CSV
Agent 1	`PDF_Hu/`	`PilotCoding_Hu_<timestamp>.csv`
Agent 2	`PDF_Liu/`	`PilotCoding_Liu_<timestamp>.csv`
Agent 3	`PDF_Shi/`	`PilotCoding_Shi_<timestamp>.csv`
Agent 4	`PDF_Wei/`	`PilotCoding_Wei_<timestamp>.csv`

总文章数: X | 总行数: Y
覆盖度: X/X PDF 已处理 ✓

1. 论文是否收集了新的实证数据？
   ├─ 否 → 是否对已有数据进行二次分析？
   │       ├─ 是 → secondary-data（后续字段如 Country/Region、City、N_Total、N_Valid、Mean_Age 等若未填写，不算错误）
   │       └─ 否 → non-empirical
   └─ 是 → 继续 ↓

2. 研究对象是否为具体个案（N≤3）？
   ├─ 是 → case-study → SubType: NA（case-study 不进行 SubType 分类；后续字段如 Country/Region、City、N_Total、N_Valid、Mean_Age 等若未填写，不算错误）
   └─ 否 → 继续 ↓

3. 是否有实验操纵或干预（manipulation/intervention）？
   ├─ 否 → Survey → 转到 Survey SubType
   └─ 是 → Exp → 转到 Exp SubType

1. 是否有干预（intervention）？
   ├─ 是 → 有标准 RCT 注册方案，或明确提及 "random assignment" 且发表于 ~2005 年前？
   │       ├─ 是 → Intervention-RCT
   │       └─ 否 → 干预是否直接作用于人脑且无创（如TMS/tDCS等）？
   │               ├─ 是 → Intervention-Brain
   │               └─ 否 → Intervention-Behavioral
   └─ 否（仅有实验操纵 manipulation）→ 继续 ↓

2. 有脑成像（EEG/MEG/fMRI/fNIRS）？
   ├─ 是 → 同时有生理信号（皮肤电/心电/眼动）？
   │       ├─ 是 → Multimodal
   │       └─ 否 → Brain
   └─ 否 → 继续 ↓

3. 有生理信号但无脑信号？
   ├─ 是 → Biol
   └─ 否 → 继续 ↓

4. 是社会/管理类实验（使用问卷/情境操纵）？
   ├─ 是 → Behavioral-Social
   └─ 否 → Behavioral-Cog

是否密集短间隔重复采样（ESM/EMA/日记法，每日/每小时级别）？
├─ 是 → ESM
├─ 否 → 是否多时间点纵向追踪（间隔数周/数月/数年）？
│       ├─ 是 → Longitudinal
│       ├─ 否 → 是否基于访谈？
│       │       ├─ 是 → Interview
│       │       ├─ 否 → 是否在田野/真实场景中？
│       │       │       ├─ 是 → Field
│       │       │       └─ 否 → Cross-Sectional

论文原文优先：如论文直接给出了总费用，Total_Cost 填论文原文数据，Lower/Upper 留空，在 Notes 中标注 Total cost from paper
公式计算：当 Cost/Session、Number_Subjects_Total、Number_Sessions 均为可提取的数值时：
- Total_Cost_Upper = Cost/Session × N_Total × Number_Sessions（按伦理要求，排除的被试也需支付费用）
- Total_Cost_Lower = Cost/Session × N_Valid × Number_Sessions（如 N_Valid 可用）
- Total_Cost：当 N_Total = N_Valid 或 N_Valid 不可用时，填计算值；当 N_Total ≠ N_Valid 时，填 approx
- 必须给出总价，不能只给单价（如 "$3.00/person" 是错误的，应计算 $3.00 × N）
特殊情况处理：
- Cost/Session 为按题计价（如 $0.10/item）→ 先计算每人报酬（如 20 items × $0.10 = $2.00），再乘以被试数和 session 数，Notes 中标注计算过程
- Cost/Session 为范围值（如 $5-$10）→ Total_Cost 填 approx，Lower 用最小单价 × N_Valid，Upper 用最大单价 × N_Total
- Cost/Session 为按试次计价（如 $0.50/trial）→ 需确认论文中的 trial 含义：如果 trial = 整个参与过程（per person），则 Cost/Session = $0.50/person；如果 trial = 单个试次，则需要查找总试次数来计算每人报酬
- Cost/Session 同时包含非货币和货币报酬（如 course credit or $10）→ 以货币部分计算，Notes 标注 calculated using monetary portion only
- Cost/Session 仅为非货币报酬（如 course credit）→ 三列均填 N/A (non-monetary)
- Cost/Session 为 no compensation → Total_Cost 填 0，Lower/Upper 留空
- 抽奖/概率性报酬（如 "entered into a drawing for a $30 gift card"、"chance to win"）→ 下限按 50% 的被试获得该报酬计算（如 N=111, gift card=$30 → Lower = 111 × $30 × 0.5），上限按 100% 获得计算。在 Notes 中标注 Total_Cost: lottery/drawing compensation, lower bound assumes 50% receipt rate。后续在方法上需要说明此估算假设
- 包含 bonus 的报酬（如 "base pay + performance bonus"）→ 计算最低成本时，bonus 部分取论文中描述的最低值（如 bonus 为 $0-$5 → 最低 bonus = $0）；计算最高成本时取最高值
- 多角度信息整合：计算 Total_Cost 时必须综合全文信息，不能仅依赖 Method 部分。如论文在 Results 或其他部分提供了实际完成人数（如 "Complete follow-up questionnaires were received from 184 participants"），应使用该确切数字计算，而非估算范围
按 session 分别计算（干预研究/纵向随访/多时间点研究）：

核心原则：不同 session/时间点的补偿情况可能不同，必须逐 session 识别并分别计算，再累加。

步骤：
1. 识别各 session 的补偿情况：从论文中确认每个 session/时间点是否有报酬、金额多少
2. 仅对有报酬的 session 计算费用：无补偿的 session 不计入总费用
3. 提取各 session 的实际完成人数：从 CONSORT Flow Diagram、结果表格或脚注中提取每个有报酬 session 的实际参与人数
4. 逐 session 累加：Total_Cost = Σ(各有报酬 session 的报酬 × 该 session 实际完成人数)
Cost/Session 字段格式：当各 session 补偿不同时，按 session 分别列出：
- baseline: no compensation; 6-mo follow-up: $20; 12-mo follow-up: $25
- screening: course credit; follow-up: $10
- 当所有 session 报酬一致时，仍可简写为单一值（如 $50）
示例：
- #174（部分 session 有补偿）： screening = course credit（$0），6-mo follow-up = $20/人，12-mo follow-up = $25/人 → 仅计算有报酬的 session：Total_Cost = $20×394 + $25×396 = $17,780
- #178（所有随访 session 统一报酬）：每次 follow-up interview = $50/人，4 组×4 个时间点 → Total_Cost = $50×763 = $38,150
- #196（仅随访有报酬）： $10 仅用于 follow-up；随访完成 N=318，随访有效分析 N=184 → Total_Cost_Lower = $10×184; Total_Cost_Upper = $10×318（不计入 baseline 的 452 人）
当论文未提供分时间点完成人数时，才退回到 N_Total × sessions × cost 的粗略估算，并标注 Total_Cost = approx，在 Notes 中说明无法获取分时间点人数。
无法计算：如任一组成字段缺失或无法提取数值 → 三列均留空，在 Notes 中说明缺失字段

论文原文称呼	正确的 Study_ID	错误的 Study_ID
Study 1	`1`	~~Study 1~~
Experiment 1	`1`	~~Exp 1~~, ~~Experiment 1~~
Experiment 1a	`1a`	~~Exp 1a~~
Study 2b	`2b`	~~Study 2b~~
Subject 1（案例研究）	`1`	~~Subject 1~~
仅有一个研究	`1`	留空

模式	含义	示例
同一 Study_ID 出现 2 行	该 Study 有 2 个独立子样本	Study 2 有 European 和 MTurk 两个独立样本
同一 Study_ID 出现 2 行	该 Study 的两个 Phase 使用独立被试	Study 1 有 Phase 1 (persuaders) 和 Phase 2 (targets)

[UNCERTAIN: 字段名] 说明

特征	说明
数据层级	以 Article_ID + Study_ID 作为联合主键
字段格式	所有字段均以文本形式存储，数值型数据未做标准化处理
缺失值	大量字段存在空值，反映原始文献中信息披露的差异
多值字段	Hardware, Software 等字段可能包含多个值，使用分号或逗号分隔

Article_ID(No_Author_Year_JournalName),Study_ID,Country/Region,City,Study_Type,Study_SubType,Recruit_Method,Platform_Recruitment,Platform_Survey,Groups_Names,Groups_N,Diagnosis_Subjects,Number_Subjects_Total,Number_Subjects_Valid,Mean_Age_Subjects (yrs),Age_SD,Age_Min,Age_Max,Number_Sessions,Cost/Session,Quests_Survey,Duration/Sess,Hardware,Software,Duration-Equip,Total_Cost,Total_Cost_Lower,Total_Cost_Upper,Currency,Notes

Codebook 字段名	CSV 表头（权威）
Platform_online	Platform_Recruitment + Platform_Survey
Compensation_Subjects_per_Session	Cost/Session
Duration_per_Session	Duration/Sess
Hardware_Duration	Duration-Equip
Mean_Age_Subjects (yrs)	Mean_Age_Subjects (yrs) + Age_SD + Age_Min + Age_Max
Total_Cost_Subject	Total_Cost + Total_Cost_Lower + Total_Cost_Upper

Study_Type,Study_SubType,Hu,Liu,Shi,Wei,Total

=== 研究类型频次统计 ===
                          Hu   Liu  Shi  Wei  Total
Exp                       XX   XX   XX   XX   XXX
  Behavioral-Social       XX   XX   XX   XX   XXX
  Behavioral-Cog          XX   XX   XX   XX   XXX
  Brain                   XX   XX   XX   XX   XXX
  Biol                    XX   XX   XX   XX   XXX
  Multimodal              XX   XX   XX   XX   XXX
  Intervention-RCT        XX   XX   XX   XX   XXX
  Intervention-Behavioral XX   XX   XX   XX   XXX
  Intervention-Brain      XX   XX   XX   XX   XXX
Survey                    XX   XX   XX   XX   XXX
  Cross-Sectional         XX   XX   XX   XX   XXX
  Longitudinal            XX   XX   XX   XX   XXX
  ESM                     XX   XX   XX   XX   XXX
  Interview               XX   XX   XX   XX   XXX
  Field                   XX   XX   XX   XX   XXX
case-study                XX   XX   XX   XX   XXX
secondary-data            XX   XX   XX   XX   XXX
non-empirical             XX   XX   XX   XX   XXX
─────────────────────────────────────────────────
Total                     XX   XX   XX   XX   XXX

/comparison-report Articles_Analyses/piloting/outputs/PilotCoding_Hu_<timestamp>.csv

/pilot-coding

Pilot Coding

试点编码技能（Pilot Coding）

第一部分：执行流程

步骤 0：确保 PDF 缓存就绪

触发条件

执行方式

Pilot Coding

试点编码技能（Pilot Coding）

第一部分：执行流程

步骤 0：确保 PDF 缓存就绪

触发条件

执行方式

步骤 1：扫描 PDF 目录

步骤 2：逐篇处理

2a. 读取全文

2b. 构建 Article_ID

2c. 识别 Study 结构

2d. 逐行提取数据

步骤 3：并行处理 4 个目录

步骤 4：后验证（Post-Validation）

4a. 结构验证

4b. 内容验证

4c. 输出汇总表

第二部分：编码规则参考

字段说明

1. Article_ID

2. Study_ID

3. Country/Region

4. City

5. Study_Type

6. Study_SubType

Study_Type / Study_SubType 分类决策树

7. Recruit_Method

8. Platform_Recruitment / Platform_Survey

9. Groups_Names

10. Groups_N

11. Diagnosis_Subjects

12. Number_Subjects_Total

13. Number_Subjects_Valid

14. Mean_Age_Subjects (yrs)

14b. Age_SD

14c. Age_Min

14d. Age_Max

15. Number_Sessions

16. Cost/Session

17. Quests_Survey

18. Duration/Sess

19. Hardware

20. Software

21. Duration-Equip

22. Total_Cost

22b. Total_Cost_Lower

22c. Total_Cost_Upper

23. Currency

24. Notes

Study_ID 编码规范

基本规则

重复 Study_ID 行的处理

不确定标记机制

数据特征

第三部分：输出规范

CSV 列定义（30 列）

输出文件格式

步骤 5：生成研究类型频次统计 CSV

5a. 统计维度

5b. 输出格式

5c. 输出文件

5d. 终端输出摘要

步骤 6：自动触发差异比较（仅 Hu 目录）

触发条件

执行方式

为什么仅比较 Hu

使用示例

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing