A股财报PDF结构化提取工具。从巨潮资讯下载年报/半年报/季报PDF,智能识别章节结构(第X节),完整无损提取管理层讨论与分析(MD&A)、风险因素、董事长致辞、业务描述、审计报告等关键非财务章节内容,保存为独立Markdown文件并生成结构化索引。严格保持原文,零删减零改写。当用户需要提取年报PDF文本内容、分析年报章节结构、获取管理层讨论分析、风险因素、业务描述等非财务文本信息时使用此skill。
将年报PDF转化为可搜索、可分析的结构化文本。侧重非财务数据类内容的完整、无损提取。
| 类别代码 | 章节 | 价值 |
|---|---|---|
mda | 管理层讨论与分析 | 最重要 — 业绩解读、业务板块分析、毛利率变化解释 |
risk | 风险因素 |
| 新增/历史风险对比、措辞变化、行业与监管风险 |
chairman_letter | 董事长致辞 | 战略信号、未来展望、情绪措辞 |
business | 业务与产品描述 | 业务布局、边界变化、竞争优势、客户市场 |
audit | 审计报告 | 意见类型、关键审计事项、持续经营假设 |
| 类别代码 | 章节 |
|---|---|
company_intro | 公司简介与主要财务指标 |
important_tips | 重要提示 |
governance | 公司治理 |
important_matters | 重要事项 |
esg | 环境与社会责任 |
shareholders | 股份变动及股东情况 |
directors_supervisors | 董事、监事、高管情况 |
--all-sections)| 类别代码 | 章节 |
|---|---|
financial_notes | 财务报表附注 |
financial_statements | 财务报告(三大报表) |
preferred_stock | 优先股相关情况 |
bonds | 债券相关情况 |
pip install pdfplumber
# 下载并提取最新年报(默认提取P1+P2章节)
python {skill_path}/scripts/report_extractor.py --code 300014
# 指定年份
python {skill_path}/scripts/report_extractor.py --code 300014 --year 2024
# 直接处理本地PDF
python {skill_path}/scripts/report_extractor.py --pdf /path/to/report.pdf
# 仅查看章节结构(不提取)
python {skill_path}/scripts/report_extractor.py --code 300014 --list-sections
# 仅提取指定类别
python {skill_path}/scripts/report_extractor.py --code 300014 --sections mda,risk,audit
# 提取全部章节(含财务报表等)
python {skill_path}/scripts/report_extractor.py --code 300014 --all-sections
# 指定输出目录
python {skill_path}/scripts/report_extractor.py --code 300014 --output-dir ./output
| 参数 | 说明 | 默认值 |
|---|---|---|
--code | 股票代码(6位),自动下载 | 与--pdf二选一 |
--pdf | 本地PDF路径,直接处理 | 与--code二选一 |
--year | 报告年份 | 最新 |
--report-type | annual/half/q1/q3 | annual |
--output-dir | 输出目录 | 当前目录 |
--sections | 提取类别(逗号分隔) | P1+P2全部 |
--all-sections | 提取全部章节 | false |
--list-sections | 仅列出章节结构 | false |
| 文件 | 说明 |
|---|---|
{code}_第X节_章节名.md | 各章节的完整提取内容(含YAML元信息头) |
{code}_提取汇总.md | 提取索引(所有章节列表、已提取列表、统计) |
{code}_structure.json | 结构化章节树(JSON,便于程序使用) |
{code}_*.pdf | 原始PDF文件 |
每个提取文件包含 YAML frontmatter 元信息:
---