Audit paper data quality in the knowledge base. Checks for missing fields, filename issues, DOI duplicates, title mismatches, and more. Supports LLM-based deep diagnosis for title mismatches and automated repair. Use when the user wants to check data quality, find problems, or fix metadata issues.
检查已入库论文的数据质量。分阶段:规则化检查(自动)+ LLM 深度诊断(对可疑项)+ 自动修复。
scholaraio audit [--severity error|warning|info]
问题按严重程度分类:
对每篇 title_mismatch 论文,用 Read 工具读取 meta.json 和 paper.md(前 80 行),判断:
对确认的错配,使用 repair 命令:
# 先 dry-run 预览
scholaraio repair "<paper-id>" --title "正确标题" [--author "一作"] [--year YYYY] [--doi "10.xxx/..."] --dry-run
# 确认后执行
scholaraio repair "<paper-id>" --title "正确标题" [--author "一作"] [--year YYYY] [--doi "10.xxx/..."]
# 修复后重建索引
scholaraio pipeline reindex
| 规则 | 级别 | 说明 |
|---|---|---|
missing_title | error | 缺少标题 |
missing_md | error | JSON 无对应 MD 文件 |
duplicate_doi | error | DOI 重复 |
missing_doi | warning | 缺少 DOI |
missing_abstract | warning | 缺少摘要 |
title_mismatch | warning | JSON 标题与 MD H1 不一致 |
nonstandard_filename | info | 文件名不符合规范格式 |
用户说:"帮我检查一下论文库有没有问题" → 执行阶段一规则化检查
用户说:"深度检查" → 执行阶段一 + 阶段二(LLM 逐篇诊断 title_mismatch)
用户说:"修复那些错配的论文" → 执行阶段三