Basic

uv sync              # core dependencies only
uv sync --group dev  # dev tools: pytest, ruff, pre-commit
uv sync --all-extras # recommended: includes flash-attn, flash-attn-cute, etc.

Advanced

Mamba-SSM (NemotronH models)

For NemotronH (hybrid Mamba-Transformer-MoE) models, install mamba-ssm for Triton-based SSD kernels that match vLLM's precision:

CUDA_HOME=/usr/local/cuda uv pip install mamba-ssm

Requires nvcc (CUDA toolkit). Without mamba-ssm, NemotronH falls back to HF's pure-PyTorch implementation which computes softplus in bf16, causing ~0.4 KL divergence vs vLLM.

Note: do NOT install causal-conv1d unless your GPU architecture matches the compiled CUDA kernels. The code automatically falls back to PyTorch nn.Conv1d when it's absent.

Basic

uv sync              # core dependencies only
uv sync --group dev  # dev tools: pytest, ruff, pre-commit
uv sync --all-extras # recommended: includes flash-attn, flash-attn-cute, etc.

Advanced

Mamba-SSM (NemotronH models)

For NemotronH (hybrid Mamba-Transformer-MoE) models, install mamba-ssm for Triton-based SSD kernels that match vLLM's precision:

CUDA_HOME=/usr/local/cuda uv pip install mamba-ssm

Requires nvcc (CUDA toolkit). Without mamba-ssm, NemotronH falls back to HF's pure-PyTorch implementation which computes softplus in bf16, causing ~0.4 KL divergence vs vLLM.

Note: do NOT install causal-conv1d unless your GPU architecture matches the compiled CUDA kernels. The code automatically falls back to PyTorch nn.Conv1d when it's absent.

Installation

Basic

Advanced

Mamba-SSM (NemotronH models)

Installation

Basic

Advanced

Mamba-SSM (NemotronH models)

FP8 inference with deep-gemm

Trainer DeepEP backend

Dev dependencies

Key files

Bluebubbles

Add Tracing

Analytics Events

Add Expert

Arthas

Arthas Eagleeye Traceid