Doc Parser Skill

Pipeline: PDF → Diagnose → Extract → VLM Vision → Synthesize → Markdown KB

Quick Start

# 1. 放 PDF 進 Inbox（按科目分類）
cp textbook.pdf data/doc-parser/input/01_Inbox/AI_Papers/

# 2. 執行流水線
python3 skills/doc-parser/scripts/run_all.py

# 3. 查看進度
cat data/doc-parser/state/checklist.md

# 4. Review Board（raw vs final 差異比對）
open http://localhost:5001

七個 Phase

Phase	腳本	功能
P0a	`p00a_diagnostic.py`	輕量診斷（頁數、文字密度、掃描判斷）

# 只處理特定科目的 PDF
python3 skills/doc-parser/scripts/run_all.py --subject AI_Papers

# 互動模式（Phase 1d 後暫停，可人工確認圖表）
python3 skills/doc-parser/scripts/run_all.py --interactive

# 互動切換模型
python3 core/cli_config_wizard.py --skill doc-parser

路徑	說明
`input/<subject>/`	PDF 入匣，放新文件至此
`output/01_Processed/<subject>/<id>/`	Docling 原始提取（勿修改）
`output/02_Highlighted/<subject>/<id>/`	重點標記後的文件
`output/03_Synthesis/<subject>/<id>/`	最終知識庫 Markdown
`state/checklist.md`	自動生成的進度追蹤表

Doc Parser | Skills Pool

Doc Parser

Doc Parser

Doc Parser Skill

Quick Start

七個 Phase

常用指令

目錄說明

設定檔位置

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing