用于Word文档解析的Word解析原子 skill,适用于通用行业文档解析场景。
本 Skill 支持多种Word文档输入格式,核心数据来源包括:
说明:本 Skill 不包含文档采集功能,需要用户提供Word文档文件。建议文档格式规范,以便进行准确的解析。
本 Skill 提供全面的Word文档解析能力,涵盖多种解析功能:
{
"document_info": {
"filename": "document.docx",
"file_size": 1024000,
"page_count": 25,
"language": "zh-CN",
"created_date": "2024-01-15",
"modified_date": "2024-03-20"
},
"structure": {
"title": "2024年度报告",
"sections": [
{
"level": 1,
"title": "第一章 公司概况",
"content": "公司概况内容...",
"page": 1,
"subsections": [
{
"level": 2,
"title": "1.1 公司基本信息",
"content": "基本信息内容...",
"page": 1
}
]
}
]
},
"tables": [
{
"table_id": 1,
"position": {
"page": 5,
"section": "第二章"
},
"rows": 10,
"columns": 5,
"data": [
["项目", "2024年", "2023年", "2022年", "2021年"],
["营业收入", "1000", "900", "800", "700"]
]
}
],
"images": [
{
"image_id": 1,
"position": {
"page": 8,
"section": "第三章"
},
"format": "png",
"size": [800, 600]
}
],
"metadata": {
"author": "张三",
"company": "示例公司",
"keywords": ["年报", "财务报告"]
}
}
LICENSE 文件requirements.txt 为准