鉴于本地 OCR 工具的缺失,本技能利用 Agent 的多模态能力来查看图像(PNG, JPG 等)并将内容(文本、表格、逻辑图)转录为格式化的 Markdown。
本技能允许你“阅读”图片并将内容转换为可编辑的 Markdown 文本。这在提取数据表格、幻灯片内容或文档截图时特别有用,尤其是当无法使用外部 OCR 库时。
确认目标图片:
list_dir 浏览目录。查看图片:
view_file 工具来“看”图片内容。系统允许你直接处理图像数据。view_file,这样你的视觉模型才能消化它。转录内容:
| 表头 | ... |)。#, ## 等来标记图片中的标题,保持层级结构。保存输出:
write_to_file 将转录的内容写入 文件(例如 )。.mdocr_results.mdpytesseract, easyocr, PIL)来进行文本提取。请直接利用你自身的视觉能力。请求: "把这 3 张财务报告的截图转为 markdown。"
执行:
list_dir 查看文件: img1.png, img2.png, img3.png。view_file 读取 img1.png。view_file 读取 img2.png 和 img3.png。write_to_file 创建 financial_report.md 并写入汇总的内容。