Name: Unstructured Document Ingestion
Author: aifinlab

非结构化文档接入 Skill

数据来源

本 Skill 支持多种非结构化文档输入格式，核心数据来源包括：

1. 文档类型

PDF文档：PDF格式的文档
Word文档：Word格式的文档
邮件文档：邮件文件、邮件附件
其他文档：文本文件、RTF文件等

2. 文档来源

本地文件：本地文件系统中的文档
网络文件：网络URL的文档
邮件系统：邮件系统的邮件和附件
文档库：文档管理系统中的文档

3. 文档特征

文档大小：小文档（<1MB）、大文档（>100MB）
文档格式：标准格式、非标准格式
文档语言：中文、英文、多语言混合
文档质量：清晰文档、扫描文档、低质量文档

4. 数据格式要求

非结构化文档接入 Skill

数据来源

本 Skill 支持多种非结构化文档输入格式，核心数据来源包括：

1. 文档类型

PDF文档：PDF格式的文档
Word文档：Word格式的文档
邮件文档：邮件文件、邮件附件
其他文档：文本文件、RTF文件等

2. 文档来源

本地文件：本地文件系统中的文档
网络文件：网络URL的文档
邮件系统：邮件系统的邮件和附件
文档库：文档管理系统中的文档

3. 文档特征

文档大小：小文档（<1MB）、大文档（>100MB）
文档格式：标准格式、非标准格式
文档语言：中文、英文、多语言混合
文档质量：清晰文档、扫描文档、低质量文档

Unstructured Document Ingestion

非结构化文档接入 Skill

数据来源

1. 文档类型

2. 文档来源

3. 文档特征

4. 数据格式要求

Unstructured Document Ingestion

非结构化文档接入 Skill

数据来源

1. 文档类型

2. 文档来源

3. 文档特征

4. 数据格式要求

功能

1. 文档读取

2. 文档解析

3. 文档转换

4. 文档索引

5. 文档验证

6. 高级处理功能

使用示例

输出示例

注意事项与限制

1. 文档格式要求

2. 文档解析准确性

3. 文档大小

4. 文档质量

5. 使用限制

参考资料

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing