将法条/规范文件(.txt/.docx/.pdf)转为 Markdown。适用于用户要求“法条转 markdown”“pdf/docx 转 markdown”。处理 .pdf/.docx 时先检查是否已安装 mineru-ocr skill;未安装先引导安装,安装后优先用 mineru-ocr;仅在用户明确同意时再用本地回退方案。
.txt:直接转存为 .md。.pdf / .docx:
mineru-ocr skill。mineru-ocr,安装地址:
https://github.com/cat-xierluo/legal-skills/tree/main/skills/mineru-ocrmineru-ocr 处理。mineru-ocr 配置/Token。python-docx / pdfplumber)。--law-decision auto)。###############(仅“第X条”为标题;第X条【条标】整行为标题不拆)Stage2: rejected (non-law-document)stage2 相对 stage1 的文字内容准确性(去标题符号与空白后字符流必须一致)--law-decision law:调用方已判定为法律文本,直接按法律结构优化。--law-decision non-law:调用方已判定为非法律文本,阶段二直接拒绝。--law-decision auto:不传判定时的默认模式,使用脚本内硬规则。--skip-stage3-check:跳过第三阶段检查(默认不跳过)。--stage3-max-retries:失败后自动重走次数,默认 2。--stage3-strict / --no-stage3-strict:
--artifact-level minimal|standard|debug:
minimal(默认):面向交付,输出最少standard:保留过程文件(stage1/stage2/stage3-check)便于排查debug:保留全部过程产物(包含调试信息)markdown/ 子目录,并按输入文件名创建独立目录:
markdown/<文件名>/--artifact-level minimal)输出:
<原文件名>+审核报告.md(详细过程和结论)<原文件名>+最终成果.md(仅法律文本且审核通过时生成)<原文件名>+审核报告.md<原文件名>+最终成果.md<文件名>.stage1.md<文件名>.stage2.md<文件名>.stage3-check.md--artifact-level standard:保留 stage1/stage2/stage3-check--artifact-level debug:保留全部调试产物--out 或 --out-dir。python3 law-to-markdown/scripts/law_to_markdown.py "input.txt"
python3 law-to-markdown/scripts/law_to_markdown.py "input.docx"
python3 law-to-markdown/scripts/law_to_markdown.py "input.pdf"
用户明确同意回退时:
python3 law-to-markdown/scripts/law_to_markdown.py "input.docx" --allow-fallback
python3 law-to-markdown/scripts/law_to_markdown.py "input.pdf" --allow-fallback