paulkuo.tw LLM Wiki 知識管線的 ingest 工作流程。當 Paul 要求處理 get_筆記、ingest 新內容到 wiki/sources/、提取 concepts / entities、更新 graph.json 與 stats.json、或掃描 wiki-ingest-pending.md 時觸發。執行單篇或批次 ingest,並依 visibility 規則判定是否去識別化。關鍵觸發詞:ingest、wiki 批次、concept 提取、wiki 來源、visibility 分類、wiki 新增。
觸發詞:wiki ingest、ingest 筆記、匯入 wiki、wiki 攝入、消化筆記、wiki 新增 相依:
src/content/wiki/CLAUDE.md(Schema 完整規則在那裡)
讀取一或多篇 raw source(get_筆記、PK 文章、Apple Notes、Web Clip),
將知識提取並編譯進 src/content/wiki/。
核心原則:不動原檔,只讀取。所有產出寫入 wiki/ 目錄。
src/content/wiki/CLAUDE.md 存在且已讀取(Schema 規則)src/content/wiki/index.md 存在(知道現有 wiki 有哪些頁面)讀取 raw source markdown
│
├─ visibility: private → 跳過,log.md 記錄,結束
├─ visibility: internal → 繼續,標記需去識別化
└─ visibility: public / 無標記 → 繼續,按預設規則判定
如果 raw source 沒有 visibility frontmatter,依照 CLAUDE.md 的「Raw Source visibility 判定」表格決定。
在 wiki/sources/ 建立摘要頁:
讀取 index.md,掃描哪些現有頁面跟這篇 source 有關:
每個更新都要同步更新 updated 日期和雙向連結。
對照 CLAUDE.md 的門檻:
未達門檻的概念/人物,在 source 摘要頁標記「待建」即可。
index.md:加入新頁面條目,更新統計meta/graph.json:新增節點(source + 新建的 concept/entity),新增邊meta/stats.json:更新數字log.md:append 本次操作紀錄處理多篇 raw source 時,調整順序以提高效率:
Phase A:全部 source 先做 Step 1-2
→ 產出所有 source 摘要頁
→ 建立「待更新清單」:哪些現有頁面被哪些新 source 引用
Phase B:統一做 Step 3-4
→ 一次性更新現有頁面(避免同一頁被改多次)
→ 統一評估新建頁面門檻(多篇 source 可能讓同一概念跨過門檻)
Phase C:一次性做 Step 5
→ meta 檔案只更新一次
→ log.md 記錄整批 ingest 摘要
每批建議 5-10 篇,太多容易出錯。
ingest internal 素材時,逐條檢查產出內容: