Process

Step 1: Clarify Requirements

Device: CPU, CUDA, MPS (Apple Silicon)?
Mixed precision needed? (yes if CUDA with Ampere+ GPU)
Gradient accumulation? (yes if batch size limited by VRAM)
Checkpointing strategy?

Step 2: Dataset & DataLoader

# Subclass torch.utils.data.Dataset
# DataLoader with:
#   num_workers = os.cpu_count()
#   pin_memory = True (CUDA only)
#   collate_fn for variable-length inputs
#   drop_last = True for training (stable batch norm)

Use a proper train/val split. Never evaluate on training data.

Step 3: Model Initialization

model.to(device) after construction
Consider torch.compile(model) for PyTorch 2.0+ (stable models, repeated forward passes)

Build a production-quality training loop from scratch with proper structure.

Process

Step 1: Clarify Requirements

Device: CPU, CUDA, MPS (Apple Silicon)?
Mixed precision needed? (yes if CUDA with Ampere+ GPU)
Gradient accumulation? (yes if batch size limited by VRAM)
Checkpointing strategy?

Step 2: Dataset & DataLoader

# Subclass torch.utils.data.Dataset
# DataLoader with:
#   num_workers = os.cpu_count()
#   pin_memory = True (CUDA only)
#   collate_fn for variable-length inputs
#   drop_last = True for training (stable batch norm)

Use a proper train/val split. Never evaluate on training data.

Step 3: Model Initialization

model.to(device) after construction
Consider torch.compile(model) for PyTorch 2.0+ (stable models, repeated forward passes)

Pytorch Training Loop

Process

Step 1: Clarify Requirements

Step 2: Dataset & DataLoader

Step 3: Model Initialization

Pytorch Training Loop

Process

Step 1: Clarify Requirements

Step 2: Dataset & DataLoader

Step 3: Model Initialization

Step 4: Optimizer & Scheduler

Step 5: Training Loop

Step 6: Validation Loop

Step 7: Checkpointing

Step 8: Logging

Anti-Patterns

Update Skills

Eval Harness

Ecc Tools Cost Audit

Code Tour

Rules Distill

Design System