YouTube URL을 받으면 자막을 추출하고, Web Search로 자동자막 오류를 보정한 뒤, 요약-인사이트-전체 번역을 제공하는 스킬. "유튜브 번역", "영상 정리", "YouTube 요약" 요청에 사용.
YouTube URL에서 자막을 추출하고, Web Search로 자동 자막 오류를 보정한 뒤, 요약-인사이트-전체 번역 3단계 파이프라인으로 제공하는 스킬.
영상은 다운로드하지 않고 자막만 추출한다.
yt-dlp --write-auto-sub --sub-lang "ko,en" --skip-download \
--convert-subs vtt -o "%(title)s" "{URL}"
| 옵션 | 설명 |
|---|---|
--write-auto-sub | 자동 자막 포함 |
--sub-lang "ko,en" | 한국어 우선, 영어 차선 |
--skip-download | 영상 다운로드 안 함 |
--convert-subs vtt | VTT 형식으로 변환 |
VTT 파일에서 타임스탬프, 번호, HTML 태그를 제거하여 순수 텍스트만 남긴다.
sed -E 's/^[0-9]+$//' | \
sed -E 's/[0-9]{2}:[0-9]{2}:[0-9]{2}.*//g' | \
sed -E 's/<[^>]+>//g' | \
tr -s '\n' | \
grep -v '^$'
자막을 찾을 수 없으면 아래와 같이 안내한다:
"이 영상에는 자막이 없습니다. 다른 영상을 선택해주세요."
영상의 제목, 설명, 채널명 등 메타데이터를 추출한다.
yt-dlp --dump-json --no-download "{URL}"
| 필드 | 설명 |
|---|---|
title | 영상 제목 |
description | 영상 설명 |
channel | 채널명 |
duration | 영상 길이 (초) |
chapters | 챕터 정보 (있으면) |
메타데이터는 Web Search 보정의 키워드 소스로 활용된다.
자동 자막은 AI 음성 인식이라 고유명사, 전문 용어, 약어가 틀릴 수 있다. 영상 메타데이터의 키워드로 웹 검색하여 올바른 표기를 확인하고 보정한다.
1. 영상 제목 + description에서 키워드 추출 (5-10개)
- 고유명사 (사람 이름, 회사명, 제품명)
- 전문 용어
- 약어
2. 추출한 키워드로 WebSearch 실행:
- "{키워드} 정확한 표기"
- "{사람 이름} {회사명}"
- "{전문 용어} explained"
3. 검색 결과로 자동 자막 보정:
- 보정 내역을 기록 (원문 → 수정)
| 자동 자막 (before) | 보정 후 (after) | 근거 |
|---|---|---|
| "Cloud" | "Claude" | Anthropic의 AI 모델명 |
| "앤트로피" | "Anthropic" | AI 안전 연구 기업명 |
| "GPT 포" | "GPT-4" | OpenAI 모델 버전명 |
| "랭체인" | "LangChain" | LLM 프레임워크명 |
| "허깅 페이스" | "Hugging Face" | AI 모델 플랫폼명 |
보정은 메타데이터에서 확인된 키워드만 대상으로 한다. 확실하지 않은 것은 원문 유지.
fetch-tweet과 동일한 3단계 파이프라인. 전체 번역을 바로 보여주지 않는다.
10분 이상의 긴 영상은 Task Agent를 사용하여 처리한다. 메인 세션의 컨텍스트를 절약하기 위해, 자막 분석과 번역을 Task Agent에게 위임한다.
brew install yt-dlp 또는 pip install yt-dlp)