Name: Robotics VLA Skill
Author: openclaw

Robotics VLA Skill

Expert guidance for Vision-Language-Action (VLA) robot foundation models — covering architecture design, training pipelines, data strategy, deployment, and evaluation. Use when (1) designing or implementing a generalist robot policy (VLA model), (2) setting up pre-training or fine-tuning pipelines for robot manipulation, (3) choosing action representations (flow matching vs. diffusion vs. autoregressive), (4) structuring multi-embodiment robot datasets, (5) evaluating dexterous manipulation tasks, (6) implementing action chunking or high-level policy decomposition. Based on the pi0 architecture (Physical Intelligence, 2024).

openclaw4,189 estrellas31 mar 2026

Ocupación
Categorías: Machine Learning

Expert guidance for building generalist robot policies using Vision-Language-Action (VLA) flow models, based on the π0 architecture.

Core Architecture

π0 model = VLM backbone + action expert + flow matching

Component	Detail
VLM backbone	PaliGemma (3B) — provides visual + language understanding
Action expert	Separate transformer weights (~300M) for robot state + actions
Total params	~3.3B
Action output	Chunks of H=50 actions; 50Hz or 20Hz robots
Inference speed	~73ms on RTX 4090

See references/architecture.md for full technical details (attention masks, flow matching math, MoE design).

Training Pipeline

Two-phase approach (mirrors LLM training):

Pre-training → broad physical capabilities + recovery behaviors across many tasks/robots

Expert guidance for building generalist robot policies using Vision-Language-Action (VLA) flow models, based on the π0 architecture.

Core Architecture

π0 model = VLM backbone + action expert + flow matching

Component	Detail
VLM backbone	PaliGemma (3B) — provides visual + language understanding
Action expert	Separate transformer weights (~300M) for robot state + actions
Total params	~3.3B
Action output	Chunks of H=50 actions; 50Hz or 20Hz robots
Inference speed	~73ms on RTX 4090

See references/architecture.md for full technical details (attention masks, flow matching math, MoE design).

Training Pipeline

Two-phase approach (mirrors LLM training):

Pre-training → broad physical capabilities + recovery behaviors across many tasks/robots

Robotics VLA Skill

Core Architecture

Training Pipeline

Robotics VLA Skill

Core Architecture

Training Pipeline

Action Representation

Multi-Embodiment Support

High-Level Policy Integration

Evaluation Checklist

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Robotics VLA Skill

Core Architecture

Training Pipeline

Robotics VLA Skill

Core Architecture

Training Pipeline

Action Representation

Multi-Embodiment Support

High-Level Policy Integration

Related & Complementary Research (2025)

Evaluation Checklist

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns