Name: Upgrade Vllm
Author: inclusionAI

搜索技能.../

Upgrade Vllm | Skills Pool

File	Imports / Usage
`areal/engine/vllm_ext/areal_vllm_server.py`	`entrypoints.openai.api_server` (`build_app`, `run_server`), `entrypoints.openai.cli_args`, `entrypoints.openai.completion.api_router` (`create_completion`), `entrypoints.openai.completion.protocol` (`CompletionRequest`), `entrypoints.openai.engine.protocol` (`ErrorResponse`, `OpenAIBaseModel`), `entrypoints.openai.utils` (`validate_json_request`), `entrypoints.utils`, `logger`, `lora.request`, `utils.argparse_utils`, `v1.engine`, `v1.engine.core`, `v1.metrics.stats`, `v1.request`, `v1.engine.output_processor`
`areal/engine/vllm_ext/vllm_worker_extension.py`	`logger`, `lora.lora_model`, `lora.peft_helper`, `lora.request`, `model_executor.model_loader`
`areal/engine/vllm_remote.py`	`VLLMBackend` class (builds HTTP requests to vLLM endpoints), `RemotevLLMEngine` wrapper

File	Imports / Usage
`areal/infra/platforms/cuda.py`	`vllm.v1.worker.gpu_worker.Worker` (try), `vllm.worker.worker.Worker` (fallback) via try/except
`areal/infra/platforms/unknown.py`	Same as `cuda.py`
`areal/infra/platforms/platform.py`	Abstract `get_vllm_worker_class()` method
`areal/infra/launcher/vllm_server.py`	`vLLMServerWrapper`, `launch_server_cmd`, env vars (`VLLM_CACHE_ROOT`, `VLLM_ALLOW_RUNTIME_LORA_UPDATING`)
`areal/infra/launcher/ray.py`	vLLM server launch in Ray cluster (imports `vLLMConfig`)
`areal/infra/launcher/local.py`	vLLM server launch locally (imports `vLLMConfig`)
`areal/infra/launcher/slurm.py`	vLLM server launch in Slurm (imports `vLLMConfig`)
`areal/infra/launcher/__init__.py`	Re-exports `launch_vllm_server`, `vLLMServerWrapper`
`areal/infra/utils/launcher.py`	`VLLM_CACHE_ROOT` path, vLLM allocation mode validation

File	Usage
`areal/api/cli_args.py`	`vLLMConfig` dataclass — all vLLM CLI flags and server arguments
`areal/api/alloc_mode.py`	`"vllm"` as a backend literal type
`areal/api/io_struct.py`	`vision_msg_vllm` field on `ModelRequest`
`areal/trainer/rl_trainer.py`	`RemotevLLMEngine` initialization, `vLLMConfig.build_args()`
`areal/workflow/vision_rlvr.py`	Sets `vision_msg_vllm` on `ModelRequest`
`areal/tools/validate_docker_installation.py`	Checks `vllm` is importable, validates `vllm._C`
`areal/tools/validation_base.py`	`vllm._C` as native extension verification

File	Usage
`tests/test_inference_engines.py`	`vLLMConfig`, `RemotevLLMEngine`, engine integration tests
`tests/test_model_utils.py`	vLLM allocation mode regression tests
`tests/test_allocation_mode.py`	vLLM allocation mode parsing tests
`tests/test_examples.py`	vLLM integration test configurations
`tests/grpo/test_grpo.py`	vLLM references in GRPO config tests

from vllm.entrypoints.openai.api_server import build_app as _original_build_app

import vllm.entrypoints.openai.api_server as _api_server_module

def _areal_build_app(args, supported_tasks=None):
    app = _original_build_app(args, supported_tasks=supported_tasks)
    # Remove vLLM's /v1/completions POST route so AReaL's takes precedence
    app.router.routes = [
        route for route in app.router.routes
        if not (hasattr(route, "path") and route.path == "/v1/completions"
                and hasattr(route, "methods") and "POST" in route.methods)
    ]
    app.include_router(router)
    return app

_api_server_module.build_app = _areal_build_app

from vllm.entrypoints.openai.api_server import run_server

uvloop.run(run_server(args))

parser = make_arg_parser(parser)

validate_parsed_serve_args(args)

from vllm.entrypoints.openai.completion.api_router import (
    create_completion as original_create_completion,
)

response = await original_create_completion(request, raw_request)

from vllm.entrypoints.openai.completion.protocol import CompletionRequest

async def create_completion(request: CompletionRequest, raw_request: Request):

from vllm.entrypoints.openai.engine.protocol import ErrorResponse, OpenAIBaseModel

HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},

class UpdateWeightsRequest(OpenAIBaseModel):
    model_path: str
    ...

from vllm.entrypoints.openai.utils import validate_json_request

@router.post("/v1/completions", dependencies=[Depends(validate_json_request)])

cli_env_setup()

@load_aware_call
async def create_completion(request: CompletionRequest, raw_request: Request):

@with_cancellation
@load_aware_call
async def create_completion(...):

logger = init_logger("areal_vllm_server")
logger = init_logger("vllm_worker_extension")

parser = FlexibleArgumentParser(
    description="vLLM OpenAI-Compatible RESTful API server."
)

EngineCoreOutput(
    request_id=req.request_id,
    new_token_ids=[],
    finish_reason=FinishReason.ABORT,
    new_logprobs=None,
    new_prompt_logprobs_tensors=None,
    stop_reason=None,
)

EngineCoreOutputs(outputs=outputs)

finish_reason=FinishReason.ABORT

setattr(EngineCore, "abort_all_reqs", abort_all_reqs)
setattr(EngineCore, "areal_injected_update_weight", areal_injected_update_weight)
setattr(EngineCore, "areal_injected_update_weight_lora", areal_injected_update_weight_lora)
setattr(EngineCore, "areal_injected_update_weight_xccl", areal_injected_update_weight_xccl)
setattr(EngineCore, "areal_injected_update_weight_lora_xccl", areal_injected_update_weight_lora_xccl)

if TYPE_CHECKING:
    from vllm.v1.engine.output_processor import RequestState

def finish_request(self, req_state: "RequestState"):
    if req_state.lora_name is None:
        return
    lora_stats = self.lora_name_to_stats[req_state.lora_name]
    if req_state.request_id in lora_stats.running_requests:
        lora_stats.running_requests.remove(req_state.request_id)

setattr(LoRARequestStates, "finish_request", finish_request)

if not pkg_version.is_version_greater_or_equal("vllm", "0.12.0"):
    setattr(LoRARequestStates, "finish_request", finish_request)

scheduler.finish_requests(request_ids, RequestStatus.FINISHED_ABORTED)

lora_request = LoRARequest(
    lora_name=lora_name,
    lora_int_id=lora_int_id,
    lora_path=runtime_lora_path,
)
if base_model_name is not None:
    lora_request.base_model_name = base_model_name

LoRARequest(
    lora_name=lora_name,
    lora_int_id=lora_int_id,
    lora_path=lora_model_path,
    base_model_name=base_model_name,
)

LoRAModel.from_lora_tensors(
    lora_model_id=self.areal_lora_int_id,
    tensors=normalized_weights,
    peft_helper=peft_helper,
    device=self.model_runner.device,
    dtype=self.model_runner.lora_manager.lora_config.lora_dtype,
    model_vocab_size=model_vocab_size,
    weights_mapper=getattr(self.model_runner.model, "hf_to_vllm_mapper", None),
)

peft_config = {
    "r": self.areal_lora_rank,
    "lora_alpha": self.areal_lora_alpha,
    "target_modules": self.areal_lora_target_modules,
    "bias": self.areal_lora_bias,
}
peft_helper = PEFTHelper.from_dict(peft_config)

model_loader = get_model_loader(self.model_runner.vllm_config.load_config)

model_loader.load_weights(
    self.model_runner.model, model_config=self.model_runner.model_config
)

@classmethod
def get_vllm_worker_class(clas):
    try:
        from vllm.v1.worker.gpu_worker import Worker
        return Worker
    except ImportError:
        pass
    try:
        from vllm.worker.worker import Worker
        return Worker
    except ImportError as e:
        raise RuntimeError("vLLM is not installed or not properly configured.") from e

vLLMConfig.build_cmd_from_args(args)
# → python3 -m areal.engine.vllm_ext.areal_vllm_server --model ... --seed ...

# areal_vllm_server.py:439-448
# Patch for LoRARequestStates management in vllm < v0.11.0
# This may be removed with vllm >= 0.12.x
from areal.utils import pkg_version

if not pkg_version.is_version_greater_or_equal("vllm", "0.12.0"):
    setattr(LoRARequestStates, "finish_request", finish_request)

# IMPORTANT: vLLM V1 engine forces enable_chunked_prefill=True by default
# TODO(vllm-v0.11.0): vLLM v0.11.0 has inference quality issues when
# temperature=1.0

cd vllm-src && python -m vllm.entrypoints.openai.api_server --help

vllm = [
"vllm==X.Y.Z; sys_platform == 'linux' and platform_machine == 'x86_64'",
]

pre-commit run --all-files
uv run pytest tests/test_inference_engines.py -v
uv run pytest tests/test_model_utils.py -v
uv run pytest tests/test_allocation_mode.py -v

uv run pytest tests/test_examples.py -v -k vllm

## Upgrade Summary: vLLM ${OLD_VERSION} → ${NEW_VERSION}

### Breaking Changes Found
- [file:line] description of change needed

### Module Moves / Renames
- [old_path] → [new_path] (affects: list of AReaL files)

### Private API Changes
- [internal_api] description of change (affects: list of AReaL files)

### CLI Flag Changes
- [flag] description (affects: vLLMConfig in cli_args.py)

### API Additions (new optional params, informational)
- [upstream_file] description

### Files Modified
- path/to/file.py: description of change

### Version-Guarded Code
- [file:line] status of version guard (still needed / can be removed)

### Tests
- ✅ pre-commit passed
- ✅ test_inference_engines passed
- ✅ test_model_utils passed
- ✅ test_allocation_mode passed
- ⬚ integration tests (requires GPU with vLLM installed)

Upgrade Vllm

Usage

Prerequisites — Source Code for Cross-Referencing

vLLM

Upgrade Vllm

Usage

Prerequisites — Source Code for Cross-Referencing

vLLM

Affected Files

Primary (engine layer — most likely to break)

Secondary (infrastructure / platform layer)

Tertiary (config / API / workflow layer)

Test files

API Usage Catalog

1. vllm.entrypoints.openai.api_server

build_app(args, supported_tasks=None)

run_server(args)

2. vllm.entrypoints.openai.cli_args

make_arg_parser(parser)

validate_parsed_serve_args(args)

3. vllm.entrypoints.openai.completion.api_router

create_completion (aliased as original_create_completion)

4. vllm.entrypoints.openai.completion.protocol

CompletionRequest

5. vllm.entrypoints.openai.engine.protocol

ErrorResponse

OpenAIBaseModel

6. vllm.entrypoints.openai.utils

validate_json_request

7. vllm.entrypoints.utils

cli_env_setup()

load_aware_call

with_cancellation

8. vllm.logger

init_logger(name)

9. vllm.utils.argparse_utils

FlexibleArgumentParser

10. vllm.v1.engine (V1 engine outputs)

EngineCoreOutput

EngineCoreOutputs

FinishReason

11. vllm.v1.engine.core

EngineCore

12. vllm.v1.engine.output_processor

RequestState

13. vllm.v1.metrics.stats

LoRARequestStates

14. vllm.v1.request

RequestStatus

15. vllm.lora.request

LoRARequest

16. vllm.lora.lora_model

LoRAModel.from_lora_tensors(...)

17. vllm.lora.peft_helper

PEFTHelper.from_dict(config)

18. vllm.model_executor.model_loader

get_model_loader(load_config)

19. vllm.envs

VLLM_USE_V1 (no longer directly checked)

20. vllm.v1.worker.gpu_worker / vllm.worker.worker

Worker

21. Private/internal APIs used by AReaL

Worker extension model runner internals

EngineCore internals (monkey-patched)

Engine client APIs (called from route handlers)

openai_serving_models internals (runtime LoRA registration)

22. Environment variables

23. vLLM server CLI interface

24. vLLM HTTP endpoints

Version-Guarded Code

Upgrade Workflow

Step 0: Prepare vLLM source

Step 1: Audit vllm API signatures

Step 2: Audit private/internal API compatibility

Step 3: Audit vLLM CLI flag compatibility

Step 4: Update pyproject.toml

Step 5: Apply code changes

Step 6: Update version-guarded code

Step 7: Run pre-commit and tests

Step 8: Report changes

1. `vllm.entrypoints.openai.api_server`

`build_app(args, supported_tasks=None)`

`run_server(args)`

2. `vllm.entrypoints.openai.cli_args`

`make_arg_parser(parser)`

`validate_parsed_serve_args(args)`

3. `vllm.entrypoints.openai.completion.api_router`

`create_completion` (aliased as `original_create_completion`)

4. `vllm.entrypoints.openai.completion.protocol`

`CompletionRequest`

5. `vllm.entrypoints.openai.engine.protocol`

`ErrorResponse`

`OpenAIBaseModel`

6. `vllm.entrypoints.openai.utils`

`validate_json_request`

7. `vllm.entrypoints.utils`

`cli_env_setup()`

`load_aware_call`

`with_cancellation`

8. `vllm.logger`

`init_logger(name)`

9. `vllm.utils.argparse_utils`

`FlexibleArgumentParser`

10. `vllm.v1.engine` (V1 engine outputs)

`EngineCoreOutput`

`EngineCoreOutputs`

`FinishReason`

11. `vllm.v1.engine.core`

`EngineCore`

12. `vllm.v1.engine.output_processor`

`RequestState`

13. `vllm.v1.metrics.stats`

`LoRARequestStates`

14. `vllm.v1.request`

`RequestStatus`

15. `vllm.lora.request`

`LoRARequest`

16. `vllm.lora.lora_model`

`LoRAModel.from_lora_tensors(...)`

17. `vllm.lora.peft_helper`

`PEFTHelper.from_dict(config)`

18. `vllm.model_executor.model_loader`

`get_model_loader(load_config)`

19. `vllm.envs`

`VLLM_USE_V1` (no longer directly checked)

20. `vllm.v1.worker.gpu_worker` / `vllm.worker.worker`

`Worker`

Step 1: Audit `vllm` API signatures

Step 4: Update `pyproject.toml`