pdf — opendataloader-pdf

배치 우선: convert() 호출마다 JVM이 생성되므로, 여러 파일은 한 번에 전달
Fast mode 먼저: 단순 PDF는 hybrid 없이 시도. 테이블이 깨지면 hybrid로 전환
포맷 선택: 텍스트만 필요 → markdown, 좌표 필요 → json, 웹 표시 → html
Tagged PDF 활용: 이미 태그된 PDF는 --use-struct-tree 로 구조 활용
민감 데이터 주의: 개인정보 포함 PDF는 --sanitize 옵션 안내

PDF를 Markdown, JSON (bounding boxes 포함), HTML로 변환합니다. 벤치마크 #1 (0.90 overall accuracy). Java 11+ 필요.

Prerequisites

pip install -U opendataloader-pdf
# 복잡한 테이블/OCR/수식이 필요하면:
pip install -U "opendataloader-pdf[hybrid]"

사용자 요청에서 파악:

PDF를 Markdown, JSON (bounding boxes 포함), HTML로 변환합니다. 벤치마크 #1 (0.90 overall accuracy). Java 11+ 필요.

pip install -U opendataloader-pdf
# 복잡한 테이블/OCR/수식이 필요하면:
pip install -U "opendataloader-pdf[hybrid]"

사용자 요청에서 파악:

옵션	설명	기본값
`-f, --format`	출력 포맷 (json, text, html, markdown, markdown-with-html, markdown-with-images)	json
`-o, --output-dir`	출력 디렉토리	입력 파일 디렉토리
`--pages`	추출 페이지 (예: "1,3,5-7")	전체
`-p, --password`	암호화된 PDF 비밀번호	-
`--use-struct-tree`	Tagged PDF 구조 트리 사용	false
`--table-method`	테이블 감지 (default, cluster)	default
`--image-output`	이미지 처리 (off, embedded, external)	external
`--image-format`	이미지 포맷 (png, jpeg)	png
`--keep-line-breaks`	원본 줄바꿈 보존	false
`--sanitize`	민감 데이터 마스킹 (이메일, 전화번호, IP 등)	false
`--include-header-footer`	머리글/바닥글 포함	false
`--markdown-page-separator`	페이지 구분자 (%page-number% 사용 가능)	없음

문서 유형	서버 옵션	클라이언트 옵션
복잡한 테이블	`--port 5002`	`--hybrid docling-fast`
스캔/이미지 PDF	`--port 5002 --force-ocr`	`--hybrid docling-fast`
비영어 스캔	`--port 5002 --force-ocr --ocr-lang "ko,en"`	`--hybrid docling-fast`
수식 포함	`--enrich-formula`	`--hybrid docling-fast --hybrid-mode full`
차트 설명 필요	`--enrich-picture-description`	`--hybrid docling-fast --hybrid-mode full`