Name: Lmms Eval Guide
Author: onlyairnopods

Lmms Eval Guide

Guides AI coding agents through the lmms-eval codebase - a unified evaluation framework for Large Multimodal Models (LMMs). Use when integrating new models, adding evaluation tasks/benchmarks, using the HTTP eval server, or navigating the evaluation pipeline architecture.

onlyairnopods0 星标2026年2月18日

职业
分类: 机器学习

lmms-eval Codebase Guide

lmms-eval evaluates Large Multimodal Models across image, video, and audio tasks. 95 model backends (14 chat + 81 simple/legacy), 230 task directories, 1377 YAML configs.

Setup

uv sync && pre-commit install
# Quick eval test
python -m lmms_eval --model qwen2_5_vl --model_args pretrained=Qwen/Qwen2.5-VL-3B-Instruct --tasks mme --batch_size 1 --limit 8
# Lint
pre-commit run --all-files

Architecture

lmms_eval/
├── __main__.py              # CLI entry (python -m lmms_eval)
├── evaluator.py             # Core evaluation loop
├── protocol.py              # ChatMessages - multimodal message protocol
├── api/
│   ├── model.py             # Base class `lmms` - all models subclass this
│   ├── instance.py          # `Instance` - request object passed to models
│   ├── task.py              # ConfigurableTask - task loading from YAML
│   └── registry.py          # @register_model, @register_task decorators
├── models/
│   ├── __init__.py           # AVAILABLE_SIMPLE_MODELS, AVAILABLE_CHAT_TEMPLATE_MODELS, MODEL_ALIASES
│   ├── registry_v2.py        # ModelManifest, ModelRegistryV2 - resolution prefers chat over simple
│   ├── chat/                 # Chat models (14, RECOMMENDED for new models)
│   └── simple/               # Legacy models (81)
├── tasks/                    # Auto-registered from YAML (230 dirs, 1377 configs)
├── entrypoints/              # HTTP eval server (FastAPI)
│   ├── http_server.py        # REST endpoints: /evaluate, /jobs/{id}, /queue, /tasks, /models
│   ├── client.py             # EvalClient (sync), AsyncEvalClient
│   └── protocol.py           # EvaluateRequest, JobInfo
├── llm_judge/                # LLM-as-judge scoring
└── tui/                      # Web UI

Lmms Eval Guide

onlyairnopods0 星标2026年2月18日

职业
分类: 机器学习

uv sync && pre-commit install # Quick eval test python -m lmms_eval --model qwen2_5_vl --model_args pretrained=Qwen/Qwen2.5-VL-3B-Instruct --tasks mme --batch_size 1 --limit 8 # Lint pre-commit run --all-files

Architecture

lmms_eval/ ├── __main__.py # CLI entry (python -m lmms_eval) ├── evaluator.py # Core evaluation loop ├── protocol.py # ChatMessages - multimodal message protocol ├── api/ │ ├── model.py # Base class `lmms` - all models subclass this │ ├── instance.py # `Instance` - request object passed to models │ ├── task.py # ConfigurableTask - task loading from YAML │ └── registry.py # @register_model, @register_task decorators ├── models/ │ ├── __init__.py # AVAILABLE_SIMPLE_MODELS, AVAILABLE_CHAT_TEMPLATE_MODELS, MODEL_ALIASES │ ├── registry_v2.py # ModelManifest, ModelRegistryV2 - resolution prefers chat over simple │ ├── chat/ # Chat models (14, RECOMMENDED for new models) │ └── simple/ # Legacy models (81) ├── tasks/ # Auto-registered from YAML (230 dirs, 1377 configs) ├── entrypoints/ # HTTP eval server (FastAPI) │ ├── http_server.py # REST endpoints: /evaluate, /jobs/{id}, /queue, /tasks, /models │ ├── client.py # EvalClient (sync), AsyncEvalClient │ └── protocol.py # EvaluateRequest, JobInfo ├── llm_judge/ # LLM-as-judge scoring └── tui/ # Web UI

Task	Reference
Add a new model	references/models.md
Add a new task/benchmark	references/tasks.md
Use the HTTP eval server	references/api-server.md

Flag	Description
`--model`	Model backend (e.g., `qwen2_5_vl`, `openai`, `vllm`)
`--model_args`	Comma key=value pairs (e.g., `pretrained=org/model,device_map=auto`)
`--tasks`	Comma-separated task names
`--limit N`	Evaluate first N samples only (always use when testing)
`--batch_size N`	Batch size for inference
`--log_samples`	Save per-sample predictions
`--verbosity DEBUG`	Detailed logging

Error	Fix
`ValueError: gen_kwargs['until']`	`until` must be `str` or `list[str]`
`NotImplementedError: loglikelihood`	Implement `loglikelihood()` or use `generate_until` tasks
Visual is `None` or `[]`	Guard: `if visual is not None and len(visual) > 0`
`is_simple` mismatch	Set `is_simple = False` on chat model classes

Lmms Eval Guide

lmms-eval Codebase Guide

Setup

Architecture

Lmms Eval Guide

lmms-eval Codebase Guide

Setup

Architecture

Evaluation Pipeline

ChatMessages Protocol (`protocol.py`)

Model Registration

When to Load References

Key CLI Flags

Environment Variables

Common Errors

Constraints

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Lmms Eval Guide

lmms-eval Codebase Guide

Setup

Architecture

Lmms Eval Guide

lmms-eval Codebase Guide

Setup

Architecture

Evaluation Pipeline

ChatMessages Protocol (protocol.py)

Model Registration

When to Load References

Key CLI Flags

Environment Variables

Common Errors

Constraints

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

ChatMessages Protocol (`protocol.py`)