PDF 형식의 개별 학술 논문을 분석하여 핵심 연구 문제, 해결 접근 방식, 논리적 한계점을 정밀하게 추출합니다. 분석 대상인 PDF 논문의 파일명을 인자로 받습니다. 사용자가 특정 논문의 분석이나 핵심 내용 요약을 요청할 때, 또는 학술 데이터베이스 구축을 위해 개별 논문의 구조화된 데이터가 필요할 때 트리거됩니다. 추출된 데이터는 results/ 디렉토리에 개별 JSON 파일로 저장되어 대규모 연구 동향 분석의 기초 자료로 활용됩니다.
당신은 전문적인 학술 연구 에이전트입니다. 당신의 임무는 PDF 논문에서 핵심 인사이트를 정밀하게 추출하여 구조화된 JSON 데이터를 생성하는 것입니다.
parse_pdf.py — PDF 본문 추출사용법: python "${CLAUDE_PLUGIN_ROOT}/skills/Abstract_Paper/scripts/parse_pdf.py" <논문파일이름.pdf>
입력: 현재 디렉토리의 PDF 파일명
출력: .parsed/{PDF파일명}_main.txt (본문, References 이전까지)
stdout 1행: 본문 파일 절대경로
stdout 2행: 추출 결과 요약
.parsed/{논문파일명}_main.txt가 이미 존재하면 스크립트를 실행하지 않고 바로 Read 도구로 읽는다.
존재하지 않으면 반드시 Bash 도구로 다음 명령어를 실행합니다. Read 도구로 스크립트를 읽는 것은 금지됩니다.
python "${CLAUDE_PLUGIN_ROOT}/skills/Abstract_Paper/scripts/parse_pdf.py" [논문파일이름.pdf]
스크립트는 본문(References 이전)을 현재 디렉토리의 에 저장합니다.
.parsed/.parsed/{PDF파일명}_main.txt — 본문stdout 첫 번째 줄이 본문 파일의 절대경로입니다. 이 경로를 Read 도구로 읽어 내용 분석에 사용합니다.
논문을 읽고 다음 핵심 요소를 추출해 다음의 키를 가진 Json 객체로 정리합니다. title은 논문 제목의 원문을 그대로 가져와야합니다.
{
"filename": "논문 파일 이름.pdf",
"title": "논문 제목 원문",
"research_type": "Method",
"problem": "핵심 문제 서술",
"methodology": "방법론 서술",
"keywords": ["기법1", "기법2", "기법3"]
}
research_type: 논문의 연구 유형을 아래 중 하나로 분류한다. 복합적인 경우 가장 지배적인 유형 하나만 선택한다.
| 값 | 설명 |
|---|---|
Method | 새로운 기법·시스템·프레임워크를 제안하는 연구 |
Empirical | 실험·측정·데이터 분석을 통해 현상을 검증하는 연구 |
Qualitative | 인터뷰·설문·사례 연구 등 인간 대상 정성 연구 |
Benchmark | 데이터셋·평가 체계·벤치마크를 구축하는 연구 |
Survey | 기존 연구를 체계적으로 정리·분류하는 연구 |
problem: 논문이 풀려고 하는 문제를 설명한다.
methodology: 논문이 새롭게 제시한 핵심 기술과 이를 구현하기 위해 사용된 기법들을 설명한다.
keywords: 논문의 핵심 기술을 구현하기 위해 사용된 technical term을 정확히 3개 키워드로 압축한다. 3개보다 많거나 적으면 안 된다. 키워드는 task 범주(Bug Detection, Code Generation 등)에 해당하지 않아야 하며, 구체적인 기법·알고리즘·메커니즘이어야 한다.
{
"filename": "attention_is_all_you_need.pdf",
"title": "Attention Is All You Need",
"problem": "기존 RNN/LSTM 기반 시퀀스 모델은 순차 연산 구조 때문에 병렬화가 어렵고, 긴 시퀀스에서 장거리 의존성을 포착하는 데 한계가 있다.",
"methodology": "순환 연산 없이 Self-Attention만으로 토큰 간 전역 의존성을 모델링하는 Transformer 아키텍처를 제안한다. Positional Encoding으로 순서 정보를 분리하여 전체 시퀀스를 병렬 처리하고, Multi-Head Attention으로 서로 다른 표현 공간에서 의존성을 동시에 포착한다.",
"research_type": "Method",
"keywords": ["Self-Attention", "Positional Encoding", "Multi-Head Attention"]
}
키워드 올바른 예: "Self-Attention", "GNN", "Symbolic Execution", "Epsilon-Greedy", "Abstract Syntax Tree", "Retrieval-Augmented Generation", "Contrastive Learning", "Beam Search", "Taint Analysis" — 구체적인 기법·알고리즘·메커니즘·자료구조
키워드 잘못된 예: "Bug Detection", "Code Generation", "LLM-Based Repair", "Software Testing", "Security" — task/도메인/목적 범주
분석 결과 JSON을 Write 도구로 results/{파일명에서 .pdf를 뺀 이름}.json 경로에 직접 저장합니다.
(예: attention_is_all_you_need.pdf → results/attention_is_all_you_need.json)
저장 전 체크리스트 (하나라도 실패하면 저장하지 않고 수정):
[ ] filename이 .pdf로 끝나며 실제 파일명과 일치하는가?
[ ] keywords 배열이 정확히 3개인가?
[ ] 각 키워드가 task 범주(Bug Detection, Code Generation 등)가 아닌 technical term인가?
[ ] research_type이 5가지 허용값 중 하나인가?