Name: Upgrade Megatron Core
Author: inclusionAI

Search skills.../

Upgrade Megatron Core | Skills Pool

MBRIDGE_DIR="${REPO_ROOT}/mbridge-src"
# Determine the compatible mbridge version from pyproject.toml
MBRIDGE_VER=$(grep 'mbridge' "${REPO_ROOT}/pyproject.toml" | grep -oP '\d+\.\d+\.\d+')
if [ ! -d "$MBRIDGE_DIR" ]; then
  git clone --branch "v${MBRIDGE_VER}" https://github.com/ISEEKYAN/mbridge.git "$MBRIDGE_DIR"
else
  cd "$MBRIDGE_DIR" && git fetch origin && git checkout "v${MBRIDGE_VER}" && cd -
fi

File	Imports
`areal/engine/megatron_engine.py`	`parallel_state`, `tensor_parallel`, `DDP`, `finalize_model_grads`, `OptimizerConfig`, `get_megatron_optimizer`, `OptimizerParamScheduler`, `get_forward_backward_func`, `TransformerConfig`, `get_model_config`
`areal/engine/megatron_utils/megatron.py`	`parallel_state`, `is_float8tensor`, `TransformerConfig`, `get_transformer_layer_offset`
`areal/engine/megatron_utils/checkpointer.py`	`dist_checkpointing`, `mpu`, `tensor_parallel`, `ShardedObject`, `get_default_load_sharded_strategy`, `get_default_save_sharded_strategy`, `FullyParallelLoadStrategyWrapper`, `FullyParallelSaveStrategyWrapper`
`areal/engine/megatron_utils/packed_context_parallel.py`	`parallel_state`, `PackedSeqParams`
`areal/engine/megatron_utils/pipeline_parallel.py`	`TransformerConfig`, `PipelineParallelLayerLayout`
`areal/engine/megatron_utils/fp8/tensor_helper.py`	`is_float8tensor`

File	Imports
`areal/models/mcore/registry.py`	`tensor_parallel`, `DDP`, `MCoreDDPConfig`, `GPTModel`, `TransformerConfig`
`areal/models/mcore/hf_load.py`	`parallel_state`, `is_float8tensor`
`areal/models/mcore/hf_save.py`	`parallel_state`, `is_float8tensor`
`areal/models/mcore/common.py`	`TransformerConfig`
`areal/models/mcore/qwen3.py`	`get_gpt_decoder_block_spec`, `TransformerConfig`
`areal/models/tree_attn/module_megatron.py`	`PackedSeqParams`, `TransformerConfig`, `SelfAttention`, `AttnMaskType`, `TransformerBlockSubmodules`, `TransformerLayer`, `TransformerLayerSubmodules`

File	Imports
`areal/infra/workflow_executor.py`	`parallel_state` (conditional import inside method)
`tests/test_estimate_num_params.py`	`parallel_state`, `tensor_parallel`
`tests/fp8/engine_utils.py`	`parallel_state`
`tests/fp8/model_hooks.py`	`parallel_state`
`tests/fp8/test_fp8_rmsnorm.py`	`get_fp8_context`, `is_float8tensor`, `get_model_config`
`tests/torchrun/run_megatron_engine_distributed.py`	`parallel_state`

File	mbridge Imports
`areal/engine/megatron_engine.py`	`mbridge.AutoBridge`
`areal/models/mcore/registry.py`	`mbridge.core.bridge.Bridge`
`areal/models/mcore/hf_load.py`	`mbridge.core.bridge.Bridge`
`areal/models/mcore/hf_save.py`	`mbridge.core.Bridge`, `mbridge.core.util.unwrap_model`
`areal/models/tree_attn/module_megatron.py`	`mbridge.core.LLMBridge`
`tests/test_estimate_num_params.py`	`mbridge.AutoBridge`

mpu.initialize_model_parallel(
    tensor_model_parallel_size=...,
    pipeline_model_parallel_size=...,
    virtual_pipeline_model_parallel_size=...,
    use_sharp=False,
    order="tp-cp-ep-dp-pp",
    context_parallel_size=...,
    expert_model_parallel_size=...,
    expert_tensor_parallel_size=...,
    distributed_timeout_minutes=...,
)

mpu.is_pipeline_last_stage()
mpu.is_pipeline_last_stage(ignore_virtual=False, vp_stage=model_vp_stage)

mpu.RankGenerator(tp=..., ep=1, dp=..., pp=..., cp=..., order="tp-cp-ep-dp-pp", rank_offset=0)

mpu.get_nccl_options("tp-cp-pp", {})

DDP(config=tf_config, ddp_config=ddp_config, module=model, disable_bucketing=False)

MCoreDDPConfig(**dataclasses.asdict(mcore_config.ddp))

model_config.finalize_model_grads_func = finalize_model_grads

MCoreOptimizerConfig(
    optimizer=..., lr=..., min_lr=..., weight_decay=...,
    bf16=..., fp16=...,
    adam_beta1=..., adam_beta2=..., adam_eps=...,
    use_distributed_optimizer=..., params_dtype=...,
    clip_grad=..., fp8_recipe=...,
)

self.optimizer = get_megatron_optimizer(mcore_opt_config, self.model)

OptimizerParamScheduler(
    optimizer, init_lr=..., max_lr=..., min_lr=...,
    lr_warmup_steps=..., lr_decay_steps=..., lr_decay_style=...,
    start_wd=..., end_wd=..., wd_incr_steps=..., wd_incr_style="constant",
)

forward_backward_func(
    forward_step_func=forward_step,
    data_iterator=data_iterator,
    model=...,
    num_microbatches=...,
    seq_length=...,
    micro_batch_size=...,
    forward_only=...,
)

spec.layer_specs  # list of layer specs
layer_spec.module  # should be TransformerLayer
layer_spec.submodules  # TransformerLayerSubmodules
submodules.self_attention  # attention spec
self_attn_spec.module  # should be SelfAttention
self_attn_spec.params["attn_mask_type"] = AttnMaskType.arbitrary
self_attn_spec.submodules.core_attention = PytorchFlexAttention

layer_offset = get_transformer_layer_offset(config, vp_stage=vp_stage)

PipelineParallelLayerLayout(layout=layout, pipeline_model_parallel_size=pp_size)

GPTModel(
    config=tf_config, transformer_layer_spec=..., vocab_size=...,
    max_sequence_length=..., pre_process=True, post_process=True,
    share_embeddings_and_output_weights=False,
    position_embedding_type="rope", rotary_base=...,
)

get_gpt_decoder_block_spec(tfconfig, use_transformer_engine=use_te)

dist_checkpointing.save(
    sharded_state_dict, ckpt_path,
    sharded_strategy=save_strategy,
    async_sharded_save=async_save,
    validate_access_integrity=validate_sharding_integrity,
)

dist_checkpointing.load(sharded_state_dict, ckpt_dir, sharded_strategy=load_strategy)

get_default_load_sharded_strategy(ckpt_dir)
get_default_save_sharded_strategy("torch_dist")
FullyParallelLoadStrategyWrapper(load_strategy, group)
FullyParallelSaveStrategyWrapper(save_strategy, group)

PackedSeqParams(
    qkv_format="thd",
    cu_seqlens_q=cu_seqlens, max_seqlen_q=max_seqlen,
    cu_seqlens_kv=cu_seqlens, max_seqlen_kv=max_seqlen,
    cu_seqlens_q_padded=cu_seqlens, cu_seqlens_kv_padded=cu_seqlens,
)

AReaL Call Site	mbridge API	Source File to Check
`megatron_engine.py:242`	`AutoBridge.from_pretrained(path)`	`mbridge-src/mbridge/core/auto_bridge.py` — `from_pretrained()` resolves model type via `_MODEL_REGISTRY`
`registry.py:139`	`bridge.get_model(wrap_with_ddp=..., ddp_config=..., use_torch_fsdp2=..., ...)`	`mbridge-src/mbridge/core/bridge.py` — `get_model()` passes kwargs to `get_model()` util
`megatron_engine.py`	`bridge.load_weights(model, path)`	`mbridge-src/mbridge/core/bridge.py` — `load_weights()`
`megatron_engine.py`	`bridge.save_weights(models, path, memory_efficient=..., distributed_filesystem=...)`	`mbridge-src/mbridge/core/bridge.py` — `save_weights()` and `_save_weights_fast()`
`megatron_engine.py`	`bridge.export_weights(models)`	`mbridge-src/mbridge/core/bridge.py` — `export_weights()` generator
`megatron_engine.py`	`bridge.set_extra_args(**kwargs)`	`mbridge-src/mbridge/core/bridge.py` — rebuilds `self.config`
`registry.py`, `megatron_engine.py`	`bridge.config` (returns `TransformerConfig`)	`mbridge-src/mbridge/core/llm_bridge.py` — `_build_base_config()` constructs the config
`registry.py`, `hf_save.py`	`bridge.hf_config`	Stored on `Bridge.__init__()` from HF `AutoConfig`

AReaL Call Site	mbridge Private API	Source File to Check
`hf_load.py:396`	`bridge._weight_name_mapping_mcore_local_to_global(model)`	`mbridge-src/mbridge/core/bridge.py` — maps VPP+EP local names to global
`hf_load.py:399`	`bridge._weight_name_mapping_mcore_to_hf(global_name)`	`mbridge-src/mbridge/core/bridge.py` — dispatches to `_weight_name_mapping_attention/mlp/other`
`hf_save.py:376`	`bridge._weight_to_hf_format(global_name, infer_params)`	`mbridge-src/mbridge/core/bridge.py` — splits QKV/gate-up, returns `(names, tensors)`
`hf_save.py:368`	`bridge._weight_merge_across_tp(name, params, param)`	`mbridge-src/mbridge/core/bridge.py` — merges TP-split tensors
`hf_load.py:365`	`bridge._get_actual_hf_path(weights_path)`	`mbridge-src/mbridge/core/bridge.py` or subclass — resolves HF cache paths
`hf_save.py:197`	`bridge._weight_name_mapping_mcore_local_to_global(model, consider_ep=False)`	Same as above but with `consider_ep` kwarg
`hf_save.py:452`	`bridge.config.num_moe_experts`	Field on `TransformerConfig` built by `_build_base_config()`
`hf_save.py:536`	`bridge.hf_config.save_pretrained(weights_path)`	Standard HF `PretrainedConfig` method
`hf_save.py:191`	`unwrap_model(model)` from `mbridge.core.util`	`mbridge-src/mbridge/core/util.py` — unwraps DDP/Float16Module/FSDP wrappers

AReaL Call Site	mbridge API	Source File to Check
`module_megatron.py:193,211`	`LLMBridge._get_transformer_layer_spec(self, vp_stage)`	`mbridge-src/mbridge/core/llm_bridge.py` — calls `get_gpt_decoder_block_spec()`

pre-commit run --all-files
uv run pytest tests/test_estimate_num_params.py -v

uv run pytest tests/fp8/ -v

## Upgrade Summary: megatron-core ${OLD_VERSION} → ${NEW_VERSION}

### Breaking Changes Found
- [file:line] description of change needed

### mbridge Compatibility
- mbridge version: ${MBRIDGE_VERSION} (compatible / needs bump to X.Y.Z)
- mbridge API changes affecting AReaL: (list or "none")

### API Additions (new optional params, informational)
- [upstream_file] description

### Files Modified
- path/to/file.py: description of change

### Tests
- ✅ pre-commit passed
- ✅ test_estimate_num_params passed
- ⬚ FP8 tests (requires GPU)

Upgrade Megatron Core

Usage

Prerequisites — Source Code for Cross-Referencing

Megatron-LM

Upgrade Megatron Core

Usage

Prerequisites — Source Code for Cross-Referencing

Megatron-LM

mbridge

Affected Files

Primary (engine layer — most likely to break)

Secondary (model layer)

Tertiary (infra + tests — lower risk)

mbridge files (coupled with megatron.core)

API Usage Catalog

1. megatron.core.parallel_state (aliased as mpu)

mpu.initialize_model_parallel(...)

mpu.destroy_model_parallel()

Rank/world-size getters

mpu.is_pipeline_last_stage(...)

mpu.RankGenerator(...)

mpu.create_group(ranks, timeout=, pg_options=, group_desc=)

mpu.get_nccl_options(name, nccl_comm_cfgs)

2. megatron.core.tensor_parallel

tensor_parallel.model_parallel_cuda_manual_seed(seed)

tensor_parallel.get_cuda_rng_tracker()

tensor_parallel.gather_from_sequence_parallel_region(logits, tensor_parallel_output_grad=False)

3. megatron.core.distributed

DistributedDataParallel (DDP)

DistributedDataParallelConfig (as MCoreDDPConfig)

finalize_model_grads

4. megatron.core.optimizer

OptimizerConfig (as MCoreOptimizerConfig)

get_megatron_optimizer(config, model_chunks)

5. megatron.core.optimizer_param_scheduler

OptimizerParamScheduler

6. megatron.core.pipeline_parallel

get_forward_backward_func()

7. megatron.core.transformer

TransformerConfig

TransformerBlockSubmodules, TransformerLayer, TransformerLayerSubmodules

SelfAttention

AttnMaskType

get_transformer_layer_offset(config, vp_stage=)

PipelineParallelLayerLayout

8. megatron.core.models.gpt

GPTModel

get_gpt_decoder_block_spec(config, use_transformer_engine=True)

9. megatron.core.fp8_utils

is_float8tensor(param)

get_fp8_context()

10. megatron.core.dist_checkpointing

dist_checkpointing.save(...)

dist_checkpointing.load(...)

ShardedObject(key, data, global_shape, global_offset, replica_id=)

Serialization strategies

11. megatron.core.packed_seq_params

PackedSeqParams

12. megatron.core.utils

get_model_config(model)

Upgrade Workflow

Step 0: Prepare Megatron-LM source

Step 1: Audit megatron.core API signatures

Step 2: Audit mbridge compatibility

2a. Public API (used directly by AReaL)

2b. Private/internal API (used by AReaL's custom weight loaders)

2c. LLMBridge._get_transformer_layer_spec() (monkey-patched by tree attention)

2d. mbridge version compatibility

Step 3: Update pyproject.toml

Step 4: Apply code changes

Step 5: Verify TransformerConfig field compatibility

Step 6: Run pre-commit and tests

Step 7: Report changes

1password

Springboot Security

Security Review

Laravel Security

Security Review

Django Security

1. `megatron.core.parallel_state` (aliased as `mpu`)

`mpu.initialize_model_parallel(...)`

`mpu.destroy_model_parallel()`

`mpu.is_pipeline_last_stage(...)`

`mpu.RankGenerator(...)`

`mpu.create_group(ranks, timeout=, pg_options=, group_desc=)`

`mpu.get_nccl_options(name, nccl_comm_cfgs)`

2. `megatron.core.tensor_parallel`

`tensor_parallel.model_parallel_cuda_manual_seed(seed)`

`tensor_parallel.get_cuda_rng_tracker()`

`tensor_parallel.gather_from_sequence_parallel_region(logits, tensor_parallel_output_grad=False)`

3. `megatron.core.distributed`

`DistributedDataParallel` (DDP)

`DistributedDataParallelConfig` (as `MCoreDDPConfig`)

`finalize_model_grads`

4. `megatron.core.optimizer`

`OptimizerConfig` (as `MCoreOptimizerConfig`)

`get_megatron_optimizer(config, model_chunks)`

5. `megatron.core.optimizer_param_scheduler`

`OptimizerParamScheduler`

6. `megatron.core.pipeline_parallel`

`get_forward_backward_func()`

7. `megatron.core.transformer`

`TransformerConfig`

`TransformerBlockSubmodules`, `TransformerLayer`, `TransformerLayerSubmodules`

`SelfAttention`

`AttnMaskType`

`get_transformer_layer_offset(config, vp_stage=)`

`PipelineParallelLayerLayout`

8. `megatron.core.models.gpt`

`GPTModel`

`get_gpt_decoder_block_spec(config, use_transformer_engine=True)`

9. `megatron.core.fp8_utils`

`is_float8tensor(param)`

`get_fp8_context()`

10. `megatron.core.dist_checkpointing`

`dist_checkpointing.save(...)`

`dist_checkpointing.load(...)`

`ShardedObject(key, data, global_shape, global_offset, replica_id=)`

11. `megatron.core.packed_seq_params`

`PackedSeqParams`

12. `megatron.core.utils`

`get_model_config(model)`

Step 1: Audit `megatron.core` API signatures

Step 2: Audit `mbridge` compatibility

2c. `LLMBridge._get_transformer_layer_spec()` (monkey-patched by tree attention)

Step 3: Update `pyproject.toml`

Step 5: Verify `TransformerConfig` field compatibility