Overview

Guide implementation of the complete data pipeline for V-JEPA 2: video decoding (decord), clip sampling (fps/duration/frame_step modes), data augmentation (crop, flip, RandAugment, motion shift, random erasing), transform pipelines, dataset management (multi-source with weights), distributed sampling, YAML configuration, and DataLoader engineering with deterministic worker seeding.

Public Contract

VideoDataset

Core video dataset with configurable clip sampling.

class VideoDataset(Dataset):
    def __init__(self, data_paths: List[str], clip_mode: str = "fps",
                 frames_per_clip: int = 16, target_fps: int = 10,
                 transform: Optional[Callable] = None): ...
    def __getitem__(self, idx) -> Dict[str, Tensor]: ...

VideoTransformPipeline

Composable video augmentation pipeline.

Overview

Public Contract

VideoDataset

Core video dataset with configurable clip sampling.

class VideoDataset(Dataset):
    def __init__(self, data_paths: List[str], clip_mode: str = "fps",
                 frames_per_clip: int = 16, target_fps: int = 10,
                 transform: Optional[Callable] = None): ...
    def __getitem__(self, idx) -> Dict[str, Tensor]: ...

VideoTransformPipeline

Composable video augmentation pipeline.

Mode	Parameter	Description
`fps`	`target_fps=10`	Sample frames at target FPS
`duration`	`clip_duration_sec=3.2`	Fixed duration clip
`frame_step`	`frame_step=4`	Fixed step between frames

Transform	Description
RandomResizedCrop	Spatial crop with scale/aspect jitter
Motion Shift	Temporal jittering of spatial crop position across frames
RandAugment	Per-frame augmentations (shear, translate, rotate, color)
Random Erasing	Cube mode for temporal consistency
ClipToTensor	`[T, H, W, C]` list -> `[C, T, H, W]` float tensor

V-JEPA 2 Data Pipeline

Overview

Public Contract

VideoDataset

VideoTransformPipeline

V-JEPA 2 Data Pipeline

Overview

Public Contract

VideoDataset

VideoTransformPipeline

DataManager

DistributedWeightedSampler

Key Concepts

Video Transform Pipeline

Clip Sampling Modes (mutually exclusive)

Frame Padding

Key Augmentation Operations

Normalization

Robotics-Specific Augmentation

Multi-Source Dataset

Worker Seeding

YAML Configuration

Configuration Surface

Done-When Gates

Resources

Reference Files

Asset Files

Scripts

Songsee

Video Frames

Gifgrep

Qqbot Media

Camsnap

Openai Whisper Api