Name: Pdf Bib Import
Author: yipng05-max

Pdf Bib Import

将一个文件夹中的多篇 PDF 论文批量提取题录信息（标题、作者、年份、期刊、卷期页码、DOI、摘要），并导入飞书多维表格。当用户需要把一批 PDF 论文的书目信息、题录信息汇总到飞书 Base / 多维表格时触发。关键词：PDF、论文、题录、书目、批量导入、飞书多维表格。

yipng05-max55 スター2026/03/30

職業
カテゴリ: ドキュメント

PDF 题录批量导入飞书多维表格

核心原则（必须遵守）

成本控制：数据提取必须用脚本完成，禁止用 AI 逐篇读取 PDF——每次 AI 读取都消耗大量 token。

正确流程：写脚本提取 → 人工/脚本校对 → 脚本批量写入飞书，AI 只负责生成脚本和配置飞书结构。

Step 1：脚本提取 PDF 题录

1.1 生成提取脚本

在 /tmp 下生成 extract_bib.py，利用 pdftotext（/opt/homebrew/bin/pdftotext）批量提取：

#!/usr/bin/env python3
"""
extract_bib.py — 从 PDF 目录批量提取题录，输出 bib_data.json
用法：python3 extract_bib.py <pdf_dir>
"""
import os, sys, json, subprocess, re

def run(cmd):
    return subprocess.run(cmd, capture_output=True, text=True).stdout.strip()

def extract_pdf_meta(path):
    info = run(["/opt/homebrew/bin/pdfinfo", path])
    meta = {}
    for line in info.splitlines():
        if ":" in line:
            k, _, v = line.partition(":")
            meta[k.strip()] = v.strip()
    text = run(["/opt/homebrew/bin/pdftotext", "-l", "2", path, "-"])
    return meta, text

def guess_fields(meta, text):
    """从 pdfinfo + 前两页文字中猜测题录字段，返回 dict。"""
    lines = [l.strip() for l in text.splitlines() if l.strip()]
    return {
        "论文题目": meta.get("Title", ""),
        "作者":     meta.get("Author", ""),
        "发表年份": None,
        "期刊名称": "",
        "卷期页码": "",
        "DOI":      "",
        "摘要":     "",
        "_raw_text_preview": "\n".join(lines[:40]),  # 供人工核查
    }

def main():
    pdf_dir = sys.argv[1] if len(sys.argv) > 1 else "."
    results = []
    for fname in sorted(os.listdir(pdf_dir)):
        if not fname.lower().endswith(".pdf"):
            continue
        fpath = os.path.join(pdf_dir, fname)
        meta, text = extract_pdf_meta(fpath)
        rec = guess_fields(meta, text)
        rec["_filename"] = fname
        results.append(rec)
        print(f"  ✓ {fname}")

    out = "/tmp/bib_data.json"
    with open(out, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print(f"\n已写出 {len(results)} 条记录 → {out}")
    print("请检查 bib_data.json，补全缺失字段后再执行 Step 3 导入。")

if __name__ == "__main__":
    main()

Pdf Bib Import

yipng05-max55 スター2026/03/30

職業
カテゴリ: ドキュメント

Step 1：脚本提取 PDF 题录

1.1 生成提取脚本

在 /tmp 下生成 extract_bib.py，利用 pdftotext（/opt/homebrew/bin/pdftotext）批量提取：

#!/usr/bin/env python3 """ extract_bib.py — 从 PDF 目录批量提取题录，输出 bib_data.json 用法：python3 extract_bib.py <pdf_dir> """ import os, sys, json, subprocess, re def run(cmd): return subprocess.run(cmd, capture_output=True, text=True).stdout.strip() def extract_pdf_meta(path): info = run(["/opt/homebrew/bin/pdfinfo", path]) meta = {} for line in info.splitlines(): if ":" in line: k, _, v = line.partition(":") meta[k.strip()] = v.strip() text = run(["/opt/homebrew/bin/pdftotext", "-l", "2", path, "-"]) return meta, text def guess_fields(meta, text): """从 pdfinfo + 前两页文字中猜测题录字段，返回 dict。""" lines = [l.strip() for l in text.splitlines() if l.strip()] return { "论文题目": meta.get("Title", ""), "作者": meta.get("Author", ""), "发表年份": None, "期刊名称": "", "卷期页码": "", "DOI": "", "摘要": "", "_raw_text_preview": "\n".join(lines[:40]), # 供人工核查 } def main(): pdf_dir = sys.argv[1] if len(sys.argv) > 1 else "." results = [] for fname in sorted(os.listdir(pdf_dir)): if not fname.lower().endswith(".pdf"): continue fpath = os.path.join(pdf_dir, fname) meta, text = extract_pdf_meta(fpath) rec = guess_fields(meta, text) rec["_filename"] = fname results.append(rec) print(f" ✓ {fname}") out = "/tmp/bib_data.json" with open(out, "w", encoding="utf-8") as f: json.dump(results, f, ensure_ascii=False, indent=2) print(f"\n已写出 {len(results)} 条记录 → {out}") print("请检查 bib_data.json，补全缺失字段后再执行 Step 3 导入。") if __name__ == "__main__": main()

问题	解决方案
pdftotext 提取为空（扫描件）	手动填写 bib_data.json，或用 OCR 工具
PDF 元数据乱码 / 错误	忽略 meta，从 `_raw_text_preview` 手工提取
lark-cli `--json @file` 报路径错误	必须 `cd /tmp` 后再执行，使用相对路径 `@_rec.json`
写入冲突 1254291	增大 `time.sleep()` 到 1 秒
字段不存在 1254045	检查字段名拼写，与 `+field-list` 返回结果一致

Pdf Bib Import

PDF 题录批量导入飞书多维表格

核心原则（必须遵守）

Step 1：脚本提取 PDF 题录

1.1 生成提取脚本

Pdf Bib Import

PDF 题录批量导入飞书多维表格

核心原则（必须遵守）

Step 1：脚本提取 PDF 题录

1.1 生成提取脚本

1.2 校对 JSON（关键步骤）

Step 2：创建飞书 Base 结构

2.1 创建 Base

2.2 获取默认表并重命名

2.3 配置字段

Step 3：脚本批量写入记录

3.1 生成导入脚本

常见问题

成本控制提示

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing