Name: Pdf Reading
Author: benchflow-ai

스킬 검색.../

Pdf Reading | Skills Pool

import pdfplumber
from pathlib import Path

def extract_pdf_text(pdf_path: str) -> str:
    """Extract all text from a PDF file."""
    text_parts = []
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = page.extract_text()
            if text:
                text_parts.append(text)
    return "\n\n".join(text_parts)

# Usage
text = extract_pdf_text("/root/artifacts/paper.pdf")
print(text)

import re

def find_commands(text: str) -> list:
    """Extract shell commands from text."""
    # Look for common command patterns
    patterns = [
        r'docker run[^\n]+',
        r'\$[^\n]+',
        r'--package=[^\s]+\s+--version=[^\s]+',
    ]
    commands = []
    for pattern in patterns:
        commands.extend(re.findall(pattern, text))
    return commands

text = extract_pdf_text("/root/artifacts/paper.pdf")
commands = find_commands(text)

import pdfplumber

def extract_tables(pdf_path: str) -> list:
    """Extract all tables from a PDF."""
    tables = []
    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            page_tables = page.extract_tables()
            for table in page_tables:
                tables.append({
                    "page": i + 1,
                    "data": table
                })
    return tables

import re

def find_package_info(text: str) -> list:
    """Find npm package references (name@version)."""
    # Match patterns like [email protected]
    pattern = r'([a-z0-9-]+)@(\d+\.\d+\.\d+)'
    matches = re.findall(pattern, text.lower())
    return [{"name": m[0], "version": m[1]} for m in matches]

Check available PDFs first:
```
ls -la /root/artifacts/
```

Preview before full extraction:

pdftotext /root/artifacts/paper.pdf - | head -100

Handle multi-column layouts: pdfplumber handles them better than pdftotext

For structured data: Look for JSON blocks in the text:

import json
import re

json_blocks = re.findall(r'\{[^{}]*\}', text)
for block in json_blocks:
    try:
        data = json.loads(block)
        print(data)
    except json.JSONDecodeError:
        pass

Pdf Reading

PDF Reading Skill

Tools Available

Quick Extraction

Command Line (Fast)

Python (More Control)

Pdf Reading

PDF Reading Skill

Tools Available

Quick Extraction

Command Line (Fast)

Python (More Control)

Extracting Specific Information

Find Commands in Text

Extract Tables

Find Package Information

Tips

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing