Name: Pdf
Author: acefrost511

功能

PDF处理：提取文本表格、创建、合并/拆分、表单填写

核心库

pypdf - 基础操作

from pypdf import PdfReader, PdfWriter

# 读取
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

# 提取文本
text = ""
for page in reader.pages:
    text += page.extract_text()

# 合并
writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)
writer.write("merged.pdf")

pdfplumber - 文本和表格提取

import pdfplumber

# 提取文本
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()

# 提取表格
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()

任务	工具
合并PDF	pypdf
拆分PDF	pypdf
提取文本	pdfplumber
提取表格	pdfplumber
创建PDF	reportlab
OCR	pytesseract

Pdf

Pdf

功能

核心库

pypdf - 基础操作

pdfplumber - 文本和表格提取

reportlab - 创建PDF

命令行工具

pdftotext

qpdf

常见任务

OCR扫描件

添加水印

密码保护

快速参考

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing