Use this skill BEFORE modifying ANY file. Contains technical visualized data models and low-level deterministic logic patterns for the Golden Rewrite stage.
パイプラインを流れるデータの最小単位と構造。
page_num, bbox (物理座標), text, font_info (name, size, flags) を含む抽出最小単位。id: raw_text のハッシュ値(決定論的)。text: ノードの文字列。role: h1-h4, p, note, list_item 等の論理的役割。children: List[TreeNode] (再帰的構造)。metadata: オリジナルの座標やフォント情報を含む Dict。VLM の判断を補強・検証するための幾何学的数値。詳細は Rule 02 を参照。
(font_size >= 1.05 * mode_size)font_name.contains('Bold', 'Heavy') || is_italicIoU > 0.80 (同一性判定の閾値)各章(Chapter)のエクスポート結果(_p2.txt)を、テキストレベルで「単純積み上げ」するフロー。
graph TD
A[Full PDF] --> B[Phase 0: Parallel Page Scan]
B --> C[Phase 1-4: Chapter-wise Processing]
C --> D[Phase 5: Chapter Export _p2.txt]
D --> E[Global Integrator]
E --> F[Indent Shift & Heading Promotion]
F --> G[Final Book Export _p2.txt]
chN_ プレフィックスを付与し、最終的な Workflowy でのノード衝突を回避する。state/phaseN_output.json を非破壊的に生成し、不変性を保つこと。_p2 を付けることが品質の証である。