Name: Reading and Processing PDFs with pdfdol
Author: i2mint

Skills suchen.../

Reading and Processing PDFs with pdfdol | Skills Pool

from dol import add_decoder

page_sep = '\n\n---\n\n'
pdfs = add_decoder(PdfFilesReader(folder), decoder=page_sep.join)

from pdfdol import pdf_bytes_to_text_pages, pdf_bytes_to_text

# Get a list of page strings
pages = list(pdf_bytes_to_text_pages(pdf_bytes))

# Get all text as one string
text = pdf_bytes_to_text(pdf_bytes)

from pdfdol.tools import pdf_to_title, pdf_to_metadata

# Extract title (returns None if not set)
title = pdf_to_title("document.pdf")
title = pdf_to_title(pdf_bytes)

# Extract full metadata dict
meta = pdf_to_metadata("document.pdf")
# {'Title': '...', 'Author': '...', 'Subject': '...', ...}

from pdfdol import concat_pdfs

# Merge all PDFs in a folder, return bytes
pdf_bytes = concat_pdfs("/path/to/folder", filter_extensions=True)

# Save to a file
concat_pdfs("/path/to/folder", save_filepath="combined.pdf",
            filter_extensions=True, key_order=sorted)

from dol import Files
from pdfdol import concat_pdfs

store = Files("/path/to/folder")
pdf_bytes = concat_pdfs(store, filter_extensions=True, key_order=sorted)

from pdfdol.tools import concat_pdf_bytes

combined = concat_pdf_bytes([pdf1_bytes, pdf2_bytes, pdf3_bytes])

# Sort alphabetically
concat_pdfs(store, key_order=sorted)

# Custom sort (e.g. by numeric prefix)
concat_pdfs(store, key_order=lambda k: int(k.split('_')[0]))

# Explicit order
concat_pdfs(store, key_order=['intro.pdf', 'chapter1.pdf', 'appendix.pdf'])

# Only include PDFs and images (skip .txt, .docx, etc.)
concat_pdfs(store, filter_extensions=True)

# Skip files that fail to convert (instead of raising)
concat_pdfs(store, skip_errors=True)

from pdfdol.util import remove_empty_pages

# Remove pages with little/no text
remove_empty_pages("input.pdf", "cleaned.pdf")

from dol import Pipe
from pdfdol.base import bytes_to_pdf_reader_obj, pdf_reader_to_text_pages

# Custom pipeline: bytes -> reader -> text pages -> uppercased
my_reader = Pipe(
    bytes_to_pdf_reader_obj,
    pdf_reader_to_text_pages,
    lambda pages: [p.upper() for p in pages],
)

upper_pages = my_reader(pdf_bytes)

Task	Function
Folder of PDFs as dict	`PdfFilesReader(folder)`
Folder of PDFs as text	`PdfTextReader(folder)`
Bytes to page list	`pdf_bytes_to_text_pages(b)`
Bytes to full text	`pdf_bytes_to_text(b)`
Get title	`pdf_to_title(src)`
Get all metadata	`pdf_to_metadata(src)`
Merge PDFs	`concat_pdfs(source, save_filepath=...)`
Merge PDF bytes	`concat_pdf_bytes([b1, b2])`
Remove empty pages	`remove_empty_pages(in_path, out_path)`

`save_filepath`	Behavior
`False` (default)	Return combined PDF as bytes
`True`	Auto-name from source folder, save, return path
`"path/to/out.pdf"`	Save to specified path, return path

Reading and Processing PDFs with pdfdol

Reading PDFs as a Dict-Like Store

Getting full text instead of page lists

Reading and Processing PDFs with pdfdol

Reading PDFs as a Dict-Like Store

Getting full text instead of page lists

Extracting Text from PDF Bytes

PDF Metadata

Concatenating PDFs

From a folder

From a dict-like store

From a list of PDF bytes

Ordering and filtering

Save behavior

Utility Functions

Building Custom Pipelines

Quick Reference

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing