Name: Key Concepts
Author: dldcom

핵심 개념 추출

교과서 소단원 PDF에서 핵심 개념을 분석하여 ■ 섹션별 빈칸 채우기 JSON을 생성한다.

Step 1: PDF 텍스트 추출

인자로 받은 PDF 경로를 사용하여 아래 Python 코드를 실행한다.

import sys
sys.path.insert(0, "testmaker/src")
from pdf_reader import extract_text_by_page, parse_subunit_filename

pdf_path = "<인자로 받은 PDF 경로>"
tagged_text, page_texts = extract_text_by_page(pdf_path)
metadata = parse_subunit_filename(pdf_path)

page_start = min(page_texts.keys())
page_end = max(page_texts.keys())

print(f"단원: {metadata['unit']}단원 {metadata['subunit']}소단원")
print(f"소단원명: {metadata['subunit_name']}")
print(f"페이지 범위: {page_start}~{page_end}쪽 ({len(page_texts)}페이지)")
print("---")
print(tagged_text)

출력된 tagged_text, page_texts, metadata를 기억해둔다.

Step 2: 핵심 개념 JSON 생성

Step 1에서 추출한 페이지별 태그 텍스트를 바탕으로, 아래 규칙에 따라 핵심 개념을 JSON으로 생성한다.

Key Concepts

Key Concepts

핵심 개념 추출

Step 1: PDF 텍스트 추출

Step 2: 핵심 개념 JSON 생성

출력 형식

섹션 구성 규칙

빈칸 채우기 규칙

출제 기준

완전성 원칙 (중요)

분량 기준

출력

Step 3: 검증

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing