Video-to-Action — Learn from YouTube via Gemini

Goal

Take a YouTube URL → send the video to Gemini → get back structured, actionable steps that Claude can understand and execute. Works for tutorials, demos, how-tos, and any procedural video content.

How It Works

Full mode (default): Downloads video at low res → uploads to Gemini File API → Gemini watches the video and returns structured analysis
Quick mode (--quick): Extracts transcript only → sends to Gemini → faster and cheaper but no visual context
Fallback chain: If video upload fails → extracts frames every 30s + transcript → sends as images + text

Usage

# Default: full video analysis (visual + audio)
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID"

# Ask a specific question about the video
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -q "What keyboard shortcuts are demonstrated?"

# Quick mode: transcript only (faster, cheaper)
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" --quick

# Save to file
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -o active/steps.md

# JSON output
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" --json

# Use Gemini Pro for maximum detail (slower, more expensive)
python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -m gemini-2.5-pro

How It Works

Full mode (default): Downloads video at low res → uploads to Gemini File API → Gemini watches the video and returns structured analysis

Quick mode (--quick): Extracts transcript only → sends to Gemini → faster and cheaper but no visual context

Fallback chain: If video upload fails → extracts frames every 30s + transcript → sends as images + text

Usage

# Default: full video analysis (visual + audio) python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" # Ask a specific question about the video python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -q "What keyboard shortcuts are demonstrated?" # Quick mode: transcript only (faster, cheaper) python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" --quick # Save to file python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -o active/steps.md # JSON output python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" --json # Use Gemini Pro for maximum detail (slower, more expensive) python3 .claude/skills/video-to-action/video_to_action.py "https://youtube.com/watch?v=VIDEO_ID" -m gemini-2.5-pro

Mode	Flag	Speed	Cost	Best For
Full	(default)	~1-3 min	~$0.05-0.20	Visual tutorials (Blender, Figma, code editors), demos with UI
Quick	`--quick`	~15-30s	~$0.01-0.03	Talks, lectures, podcasts, text-heavy content

Video To Action

Video-to-Action — Learn from YouTube via Gemini

Goal

How It Works

Usage

Video To Action

Video-to-Action — Learn from YouTube via Gemini

Goal

How It Works

Usage

When to Use Which Mode

Workflow: Video → Action

Example: Learning a Blender Tutorial

Environment

Dependencies

Limitations

Songsee

Video Frames

Gifgrep

Qqbot Media

Camsnap

Openai Whisper Api