Name: Torch Tensor Parallelism
Author: Zurybr

Torch Tensor Parallelism

Guidance for implementing tensor parallelism in PyTorch, including ColumnParallelLinear and RowParallelLinear layers. This skill should be used when implementing distributed tensor parallel operations, sharding linear layers across multiple GPUs, or simulating collective operations like all-gather and all-reduce for parallel computation.

Zurybr0 スター2025/12/19

職業
カテゴリ: フレームワーク内部構造

Tensor Parallelism Implementation Guide

This skill provides guidance for implementing tensor parallelism patterns in PyTorch, specifically for ColumnParallelLinear and RowParallelLinear layers that distribute computation across multiple devices.

Core Concepts

Tensor Parallelism Overview

Tensor parallelism splits individual layers across multiple devices to parallelize computation within a single forward/backward pass. The two primary patterns are:

ColumnParallelLinear: Shards weights along the output dimension (columns). Each device computes a portion of the output features, then results are concatenated via all-gather.
RowParallelLinear: Shards weights along the input dimension (rows). Each device computes partial outputs using its shard of the input, then results are summed via all-reduce.

Critical Implementation Requirement

When implementing tensor parallelism (especially in simulation or testing contexts), the forward pass must actually perform the collective operations, not just compute local shards:

Tensor Parallelism Implementation Guide

Core Concepts

Tensor Parallelism Overview

Tensor parallelism splits individual layers across multiple devices to parallelize computation within a single forward/backward pass. The two primary patterns are:

ColumnParallelLinear: Shards weights along the output dimension (columns). Each device computes a portion of the output features, then results are concatenated via all-gather.
RowParallelLinear: Shards weights along the input dimension (rows). Each device computes partial outputs using its shard of the input, then results are summed via all-reduce.

Critical Implementation Requirement

When implementing tensor parallelism (especially in simulation or testing contexts), the forward pass must actually perform the collective operations, not just compute local shards:

Torch Tensor Parallelism

Tensor Parallelism Implementation Guide

Core Concepts

Tensor Parallelism Overview

Critical Implementation Requirement

Torch Tensor Parallelism

Tensor Parallelism Implementation Guide

Core Concepts

Tensor Parallelism Overview

Critical Implementation Requirement

Implementation Approach

Step 1: Understand the Parallelism Pattern

Step 2: Weight Sharding

Step 3: Forward Pass Implementation

Step 4: Bias Handling

Verification Strategies

Mathematical Verification

Shape Verification Checklist

Test Cases to Consider

Common Pitfalls

Pitfall 1: Returning Local Shards Only

Pitfall 2: Incorrect Bias Handling in RowParallelLinear

Pitfall 3: Misinterpreting "Simulation" Requirements

Pitfall 4: Truncated File Writes

Pitfall 5: Wrong Dimension for Sharding

Pre-Implementation Checklist

Post-Implementation Checklist

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2