Name: Paddle Ocr
Author: cat-xierluo

Paddle Ocr

面向法律 PDF 与扫描件的 PaddleOCR 结构化解析技能。默认将本地 PDF 或图片转换为 Markdown，并在技能内部保留可追溯 archive 归档。适用于卷宗、病历、证据材料、发票、财报、复杂扫描件、表格密集文档、公式与多栏版面。触发词包括：法律 PDF OCR、卷宗 OCR、病历 OCR、证据扫描件转 Markdown、PaddleOCR、表格识别、公式识别、版面分析、PDF 转 Markdown、复杂 PDF 解析。

cat-xierluo133 starsApr 15, 2026

Occupation
Categories: Documents

本技能服务于法律材料 OCR。默认目标不是返回一段临时文本，而是：

将本地 PDF / 图片转换为可继续编辑和分析的 Markdown。
在 archive/ 下保留完整归档，便于复核、追溯和二次处理。

何时使用

在以下场景使用本技能：

需要把卷宗、病历、证据材料、法院通知、财报、票据等扫描 PDF 转成 Markdown。
文档包含表格、印章、页眉页脚、多栏排版、公式或复杂版面。
希望保留一个技能内的 archive，沉淀原文件、Markdown、结构化 JSON 和批次结果。
后续还要继续做法律分析、证据摘录、知识入库或 RAG 切片。

在以下场景不要优先使用本技能：

只是快速读取一小段清晰文本，且不需要 Markdown 和归档。
只是截图抄字，速度比结构化质量更重要。
输入不是 PDF / 常见图片格式。

主产出

默认主产出只有两类：

Markdown 文件：保存在源文件同目录，默认与原文件同名、扩展名为 .md
archive 归档目录：保存在 paddle-ocr/archive/时间戳_文件名/

archive 默认包含：

原始输入文件副本
最终 result.md
最终 result.json
批次级 batches/*.json
提取出的图片资源

Paddle Ocr

cat-xierluo133 starsApr 15, 2026

Occupation
Categories: Documents

何时使用

在以下场景使用本技能：

需要把卷宗、病历、证据材料、法院通知、财报、票据等扫描 PDF 转成 Markdown。

文档包含表格、印章、页眉页脚、多栏排版、公式或复杂版面。

希望保留一个技能内的 archive，沉淀原文件、Markdown、结构化 JSON 和批次结果。

后续还要继续做法律分析、证据摘录、知识入库或 RAG 切片。

在以下场景不要优先使用本技能：

只是快速读取一小段清晰文本，且不需要 Markdown 和归档。

只是截图抄字，速度比结构化质量更重要。

输入不是 PDF / 常见图片格式。

主产出

默认主产出只有两类：

Markdown 文件：保存在源文件同目录，默认与原文件同名、扩展名为 .md

archive 归档目录：保存在 paddle-ocr/archive/时间戳_文件名/

archive 默认包含：

原始输入文件副本

最终 result.md

最终 result.json

批次级 batches/*.json

提取出的图片资源

依赖	安装方式
`python3`	macOS 通常已内置
`uv`	macOS: `brew install uv`

选项	默认值	说明
`PADDLEOCR_DOC_PARSING_API_URL`	空	官方要求的完整 `layout-parsing` 端点
`PADDLEOCR_ACCESS_TOKEN`	空	官方 Access Token
`PADDLEOCR_DOC_ORIENTATION`	`false`	是否启用方向分类
`PADDLEOCR_DOC_UNWARP`	`false`	是否启用去扭曲
`PADDLEOCR_CHART_RECOG`	`false`	是否启用图表识别
`PADDLEOCR_DOC_PARSING_TIMEOUT`	`600`	单次请求超时秒数
`PADDLEOCR_BATCH_PAGES`	`40`	PDF 自动分批页数阈值兼批次大小
`PADDLEOCR_MAX_BASE64_MB`	`20`	触发分批的保守大小阈值
`PADDLEOCR_LOG_LEVEL`	`medium`	`low` / `medium` / `high`

问题	解决方式
未配置 API	先补 `config/.env`，再执行 `uv run scripts/smoke_test.py --skip-api-test`
403 / Token 错误	更新 `PADDLEOCR_ACCESS_TOKEN`
请求超时	调大 `PADDLEOCR_DOC_PARSING_TIMEOUT`，或减少页码范围
大 PDF 失败	使用 `--pages` 缩小范围，或让脚本自动分批
Markdown 为空	到 `archive/` 查看 `batches/*.json` 和 `metadata.json`，确认是否原文件质量过差
需要看原始坐标和表格结构	使用 `scripts/layout_caller.py`，并读取 `result.result.layoutParsingResults[*].prunedResult`

Paddle Ocr

何时使用

主产出

Paddle Ocr

何时使用

主产出

依赖

系统依赖

Python 包

首次配置

获取 API 信息

配置方式

常用命令

主工作流：生成 Markdown + archive

底层调试：只调用解析接口，输出结构化 JSON

自检

拆分页码

法律 PDF 工作流

大文件策略

输出说明

Markdown

archive

配置项

结果结构

故障排除

维护建议

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing