从论文中提取图片,优先从arXiv源码包获取真正的论文图
从论文中提取所有图片,保存到20_Research/Papers/[领域]/[论文标题]/images/目录,并返回图片路径列表,以便在笔记中引用。
关键改进:优先从arXiv源码包提取真正的论文图片(架构图、实验结果图等),而非PDF中的logo等非核心图片。
识别论文来源
下载PDF(如果需要)
脚本会自动尝试以下步骤:
下载arXiv源码包
https://arxiv.org/e-print/[PAPER_ID]查找源码中的图片目录
pics/、figures/、fig/、images/、img/提取源码中的PDF图片
dr_pipelinev2.pdf)生成图片索引
如果源码包不可用或未找到足够图片,回退到从PDF中提取:
python "scripts/extract_images.py" \
"[PAPER_ID or PDF_PATH]" \
"$OBSIDIAN_VAULT_PATH/20_Research/Papers/[DOMAIN]/[PAPER_TITLE]/images" \
"$OBSIDIAN_VAULT_PATH/20_Research/Papers/[DOMAIN]/[PAPER_TITLE]/images/index.md"
参数说明:
返回相对于笔记文件的图片路径列表,格式化输出便于在笔记中引用。
PDF直接提取的问题:
arXiv源码包的优势:
pics/目录包含作者准备的原始图片dr_pipelinev2.pdf)# 图片索引
总计:X 张图片
## 来源: arxiv-source
- 文件名:final_results_combined.pdf
- 路径:images/final_results_combined_page1.png
- 大小:1500.5 KB
- 格式:png
## 来源: pdf-figure
- 文件名:dr_pipelinev2_page1.png
- 路径:images/dr_pipelinev2_page1.png
- 大小:45.2 KB
- 格式:png
## 来源: pdf-extraction
- 文件名:page1_fig15.png
- 路径:images/page1_fig15.png
- 大小:65.3 KB
- 格式:png
Image paths:
images/final_results_combined_page1.png (arxiv-source)
images/dr_pipelinev2_page1.png (pdf-figure)
images/rl_framework_page1.png (pdf-figure)
images/question_synthesis_pipeline_page1.png (pdf-figure)
/extract-paper-images 2510.24701
20_Research/Papers/领域/论文标题/images/20_Research/Papers/领域/论文标题/images/index.mdimages/final_results_combined_page1.png等(前3-5张)20_Research/Papers/[领域]/[论文标题]/images/如果提取的都是logo/图标:
pics/或figures/目录如果arXiv源码包下载失败: