把论文 DoclingDocument JSON 加工成二手信息集(SIP),包含 01~07 共 8 个输出文件
把一篇论文的 DoclingDocument JSON 加工成一套"二手信息集(SIP)",让人不通读原文也能:
DoclingDocument JSON(字段参考见 workspace/reference/docling_json_schema.md)texts[],其中 texts[idx].prov[0].page_no 提供页码outputs/secondary_info_runs/<run_id>/agent_a/<dir_name>/README.mdscripts/sip_generate.py 自动生成)| 文件 |
|---|
| 用途 |
|---|
00_manifest.json | SIP 清单与指纹(输入路径、sha256、DOI) |
source_index.jsonl | texts[] 扁平索引(id=p{page}-t{idx}、snippet 等) |
headers_auto.md | 自动抽取的标题列表 |
figures_tables.md | 图/表 caption 索引 + 表格网格转 Markdown |
以下是每个文件的必须小节,框架写死:
01_card.md## Bibliography:标题/作者/期刊年份/DOI/关键词## 一段话读懂:研究问题 + 核心指标 + 核心发现方向(带证据)## 数据与对象:区域/时间/样本量/对象/数据类型## 方法链条(一句话流水线):从采样→数据表→矩阵/指标→模型/检验→结论## 关键结论(可引用):编号列出 3–8 条(每条带证据)## 局限性/不确定性:来自原文(每条尽量带证据)## 读这篇的用法:建议先读哪几段/图表(指向 SIP 文件)02_outline_plain.md## 章节路线:按论文顺序逐章写
## 快速跳读建议(可选):哪些段落/图表最值钱03_workflow.md## 证据引用怎么读## 可视化(HTML):指向 03_workflow_viz.html## 逐步版(输入→操作→输出→证据):
1) ...(按论文/流水线顺序)输入 / 操作 / 输出 / 证据复现线索(包/函数/参数)03_workflow_viz.html(主文档)📊 Fig. 1),展开面板底部用黄色框列出每张图/表的简要说明和证据指针。md 文件同样在每步末尾加 📊 **对应图表** 行figures_tables.md:表格优先修成可读 HTML <table>;若提取质量差,明确标注“表格提取质量不足/待人工核对”,并保留原始关键片段04_claims_evidence.md每条 Claim 必须包含:
Claim:可检验句(对象/度量/方向/条件)Scope/条件:研究对象与外推边界Evidence:p?-t?(必要时加短摘录)Falsification:什么观察会推翻Causality note:除非原文明确,否则写"相关/关联"05_layman_conclusions.md理念:与 06_glossary.md 一样——"啰嗦但说清楚",易读性 > 简洁性。
## 1. 标题、## 2. 标题)06_glossary.md理念:"啰嗦但说清楚"——易读性 > 简洁性。目标是让没有学过这门课的读者也能读懂。
每个术语必须包含:
通用定义:不止一句话!用通俗语言和比喻把概念讲透,像给聪明的外行解释一样本文怎么测/怎么用:落到数据结构与具体操作——作者在哪里、怎样使用了这个概念复现步骤/输入输出(让人能照着做):如果是可计算的量,写出步骤坑/边界条件(容易误用的地方):常见误解、与相近概念的区别证据指针(p?-t?)07_questions.md 有对应问题:术语条目必须覆盖到问题要求的深度07_questions.md## 我的问题(用户填写)和 ## agent 回答(agent 后续作答)两个区域## agent 回答 下按 A1/A2/... 回答:
结论 + 复现/操作步骤 + 证据 + 不确定性/缺失信息(如有)workspace/reference/evidence_pointer.md03_workflow_viz.html(HTML,中英对照)**中文译文** 标记)05_layman_conclusions.md 和 06_glossary.md 采用"啰嗦但说清楚"标准——每个要点/术语必须多段展开,用比喻、类比、机制解释,不惜篇幅03_workflow.md 和 03_workflow_viz.html 的每个步骤必须标注该步骤对应论文中的哪些图/表(Figure/Table 编号 + 简要说明)03_workflow_viz.html 不能只提示“见 figures_tables.md”;必须把相关表格/caption 直接做进去先做读者最需要的:01 → 03 → 04 → 05
再补:02(结构地图)→ 06(术语表)→ 07(问题)