Skill-Datei

Packed Sequences Long Context

Name: Packed Sequences Long Context
Author: GeodesicResearch

Sequence packing and long-context training in Megatron Bridge. Use when the user asks about packed sequences, sequence packing, long context training, PackedSequenceSpecs, pack_sequences_in_batch, or CP with packing.

GeodesicResearch0 Sterne20.03.2026

Beruf
Kategorien: Architekturmuster

Skill-Inhalt

Packed Sequences & Long-Context Training

For what packed sequences are, the three packing paths, and when to use them, see:

docs/training/packed-sequences.md
card.yaml (co-located)

Enablement

Offline packed SFT

cfg.train.micro_batch_size = 1
cfg.dataset.dataset_kwargs.pad_to_max_length = True
cfg.dataset.packed_sequence_specs.packed_sequence_size = 8192  # match seq_length

VLM in-batch packing

cfg.dataset.pack_sequences_in_batch = True
cfg.train.micro_batch_size = 4  # must be > 1

CP + packing (finetuning)

Verwandte Skills

Packed Sequences Long Context | Skills Pool

cfg.model.context_parallel_size = 4
cfg.model.calculate_per_token_loss = True
cfg.ddp.average_in_collective = False
cfg.dataset.packed_sequence_specs.pad_seq_to_mult = 2 * 4  # 2 * CP

# If sequence_parallel is also enabled, pad_seq_to_mult must include TP:
# cfg.dataset.packed_sequence_specs.pad_seq_to_mult = 2 * CP * TP

Packed Sequences Long Context

Packed Sequences & Long-Context Training

Enablement

Offline packed SFT

VLM in-batch packing

CP + packing (finetuning)

Packed Sequences Long Context

Packed Sequences & Long-Context Training

Enablement

Offline packed SFT

VLM in-batch packing

CP + packing (finetuning)

Code Anchors

Pitfalls

Verification

Sessions

Docker Patterns

Autonomous Loops

Kotlin Patterns

Eval Harness

Golang Patterns