技能档案

Reliable Pdf Extraction Ac5f89

Name: Reliable Pdf Extraction Ac5f89
Author: HKUDS

Extract PDF text content using shell tools or Python libraries when read_file PDF handler fails

HKUDS5,421 星标2026年3月24日

职业
分类: 文档

技能内容

Reliable PDF Text Extraction

Problem

The read_file tool with filetype='pdf' can be unreliable for PDF text extraction. It may:

Return binary image data instead of text
Fail with errors on certain PDF structures
Lose formatting or structured content

Solution

Use run_shell with dedicated PDF extraction tools instead of relying on read_file for PDFs.

Methods

Method 1: pdftotext (Recommended)

pdftotext input.pdf output.txt

Or to extract to stdout:

相关技能

Reliable Pdf Extraction Ac5f89 | Skills Pool

pdftotext input.pdf -

pdftotext -layout input.pdf output.txt

pdfinfo input.pdf

import fitz  # PyMuPDF

doc = fitz.open("input.pdf")
text = ""
for page in doc:
    text += page.get_text()
doc.close()

import pdfplumber

with pdfplumber.open("input.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        tables = page.extract_tables()

Check PDF exists and is readable:

pdfinfo input.pdf 2>/dev/null || echo "PDF not accessible"

Extract text using pdftotext:

pdftotext -layout input.pdf - > extracted_text.txt

If pdftotext fails, try Python fallback:

import fitz
doc = fitz.open("input.pdf")
for i, page in enumerate(doc):
    print(f"--- Page {i+1} ---")
    print(page.get_text())
doc.close()

Verify extraction succeeded:
- Check output is non-empty
- Verify text is readable (not binary/garbled)
- Confirm expected content is present

# In your agent workflow, prefer this pattern:
result = run_shell(command="pdftotext document.pdf -", timeout=30)
if result.stdout and len(result.stdout.strip()) > 0:
    content = result.stdout

Tool	Best For
`pdftotext`	Fast, simple text extraction
`pdftotext -layout`	Preserving spacing/formatting
`PyMuPDF`	Complex PDFs, programmatic access
`pdfplumber`	Tables and structured data

Reliable Pdf Extraction Ac5f89

Reliable PDF Text Extraction

Problem

Solution

Methods

Method 1: pdftotext (Recommended)

Reliable Pdf Extraction Ac5f89

Reliable PDF Text Extraction

Problem

Solution

Methods

Method 1: pdftotext (Recommended)

Method 2: pdfinfo (Metadata)

Method 3: Python with PyMuPDF (fitz)

Method 4: Python with pdfplumber (Tables)

Workflow

When to Use

Example Integration

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing