skyrl-train/pyproject.toml

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -79,7 +79,7 @@ override-dependencies = [
  
        "nvidia-resiliency-ext; sys_platform == 'never'",

        "mamba-ssm; sys_platform == 'never'",

        "causal-conv1d; sys_platform == 'never'",

        "transformer-engine[pytorch]==2.9.0",

        "transformer-engine[pytorch]==2.10.0",

        "megatron-core==0.15.0"

    ]

    [tool.uv.extra-build-dependencies]

    @@ -125,9 +125,9 @@ sandboxes = [
  
        "litellm[proxy]>=1.67.5",

    ]

    vllm = [

        "vllm==0.11.0",

        "vllm==0.13.0",

        "flash-attn==2.8.3",

        "torch==2.8.0",

        "torch==2.9.0",

        "flashinfer-python",

        "flashinfer-jit-cache",

        "torchvision"

    @@ -140,15 +140,15 @@ sglang = [
  
        "torchvision",

    ]

    mcore = [

      "transformer-engine[pytorch]==2.9.0",

      "transformer-engine[pytorch]==2.10.0",

      "flash-attn==2.8.1",

      "vllm==0.11.0",

      "torch==2.8.0",

      "flashinfer-python==0.5.2",

      "vllm==0.13.0",

      "torch==2.9.0",

      "flashinfer-python==0.5.3",

      "torchvision",

      "megatron-bridge @ git+https://github.com/NVIDIA-NeMo/Megatron-Bridge.git@v0.2.0",

      "megatron-core==0.15.0",

      "flashinfer-jit-cache==0.5.2",

      "flashinfer-jit-cache==0.5.3",

      "nvidia-modelopt",

    ]

    flashrl = [

skyrl-train/skyrl_train/inference_engines/vllm/vllm_engine.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -364,27 +364,36 @@ def _create_engine(self, *args, **kwargs): @@
             model_name = model_path
             base_model_paths = [BaseModelPath(name=model_name, model_path=model_path)]
-            models = OpenAIServingModels(engine, model_config, base_model_paths)
+            # vllm >= 0.11.2 removed model_config from OpenAI serving APIs
+            is_new_api = version.parse(vllm.__version__) >= version.parse("0.11.2")
+            legacy_kwargs = {}
+            if is_new_api:
+                models = OpenAIServingModels(engine, base_model_paths)
+            else:
+                models = OpenAIServingModels(engine, model_config, base_model_paths)
+                legacy_kwargs["model_config"] = model_config
             # TODO(Charlie): revisit kwargs `enable_auto_tools` and `tool_parser` when we need to
             # support OAI-style tool calling; and `request_logger` for better debugging.
             self.openai_serving_chat = OpenAIServingChat(
                 engine_client=engine,
-                model_config=model_config,
                 models=models,
                 response_role="assistant",
                 request_logger=None,
                 chat_template=None,
                 chat_template_content_format="auto",
+                **legacy_kwargs,
                 **openai_kwargs,
             )
             # TODO(Charlie): revisit kwargs `return_tokens_as_token_ids`,
             # `enable_prompt_tokens_details`, `enable_force_include_usage`.
             self.openai_serving_completion = OpenAIServingCompletion(
                 engine_client=engine,
-                model_config=model_config,
                 models=models,
                 request_logger=None,
+                **legacy_kwargs,
             )
             return engine
@@ Expand Down @@

skyrl-train/skyrl_train/inference_engines/vllm/vllm_server.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -2,7 +2,8 @@ @@
     import signal
     import uvloop
     from vllm import AsyncLLMEngine
-    from vllm.utils import FlexibleArgumentParser, set_ulimit
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+    from vllm.utils.system_utils import set_ulimit
     from vllm.entrypoints.openai.cli_args import (
         make_arg_parser,
         validate_parsed_serve_args,
@@ Expand Down Expand Up / @@ -121,8 +122,7 @@ async def _destroy_weights_update_group(request: Request): @@
                 )
                 return {"status": "ok"}
-            vllm_config = await engine.get_vllm_config()
-            await init_app_state(engine, vllm_config, app.state, args)
+            await init_app_state(engine, app.state, args)
             shutdown_task = await serve_http(
                 app,
@@ Expand Down @@

skyrl-train/tests/gpu/utils.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -445,6 +445,9 @@ def get_free_port(): @@
                 # For standalone server, we use mp for now.
                 "--distributed-executor-backend",
                 "mp",
+                # vLLM 0.13+ V1 engine spawns worker processes that can't inherit CUDA context
+                # when CUDA_VISIBLE_DEVICES is set. Disable frontend multiprocessing to fix this.
+                "--disable-frontend-multiprocessing",
                 "--dtype",
                 "bfloat16",
                 "--host",
@@ Expand Down @@

[skyrl-train] Upgrade vllm to 0.13.0 (and torch to 2.9.0) for both vllm and mcore extras #887

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged

erictang000 merged 5 commits into main from upgrade_vllm

Jan 17, 2026

-Original file line number
+Diff line change
@@ Expand Up / @@ -364,27 +364,36 @@ def _create_engine(self, *args, **kwargs): @@
             model_name = model_path
             base_model_paths = [BaseModelPath(name=model_name, model_path=model_path)]
-            models = OpenAIServingModels(engine, model_config, base_model_paths)
+            # vllm >= 0.11.2 removed model_config from OpenAI serving APIs
+            is_new_api = version.parse(vllm.__version__) >= version.parse("0.11.2")
+            legacy_kwargs = {}
+            if is_new_api:
+                models = OpenAIServingModels(engine, base_model_paths)
+            else:
+                models = OpenAIServingModels(engine, model_config, base_model_paths)
+                legacy_kwargs["model_config"] = model_config
             # TODO(Charlie): revisit kwargs `enable_auto_tools` and `tool_parser` when we need to
             # support OAI-style tool calling; and `request_logger` for better debugging.
             self.openai_serving_chat = OpenAIServingChat(
                 engine_client=engine,
-                model_config=model_config,
                 models=models,
                 response_role="assistant",
                 request_logger=None,
                 chat_template=None,
                 chat_template_content_format="auto",
+                **legacy_kwargs,
                 **openai_kwargs,
             )
             # TODO(Charlie): revisit kwargs `return_tokens_as_token_ids`,
             # `enable_prompt_tokens_details`, `enable_force_include_usage`.
             self.openai_serving_completion = OpenAIServingCompletion(
                 engine_client=engine,
-                model_config=model_config,
                 models=models,
                 request_logger=None,
+                **legacy_kwargs,
             )
             return engine
@@ Expand Down @@

-Original file line number
+Diff line change
@@ Expand Up / @@ -2,7 +2,8 @@ @@
     import signal
     import uvloop
     from vllm import AsyncLLMEngine
-    from vllm.utils import FlexibleArgumentParser, set_ulimit
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+    from vllm.utils.system_utils import set_ulimit
     from vllm.entrypoints.openai.cli_args import (
         make_arg_parser,
         validate_parsed_serve_args,
@@ Expand Down Expand Up / @@ -121,8 +122,7 @@ async def _destroy_weights_update_group(request: Request): @@
                 )
                 return {"status": "ok"}
-            vllm_config = await engine.get_vllm_config()
-            await init_app_state(engine, vllm_config, app.state, args)
+            await init_app_state(engine, app.state, args)
             shutdown_task = await serve_http(
                 app,
@@ Expand Down @@

-Original file line number
+Diff line change
@@ Expand Up / @@ -445,6 +445,9 @@ def get_free_port(): @@
                 # For standalone server, we use mp for now.
                 "--distributed-executor-backend",
                 "mp",
+                # vLLM 0.13+ V1 engine spawns worker processes that can't inherit CUDA context
+                # when CUDA_VISIBLE_DEVICES is set. Disable frontend multiprocessing to fix this.
+                "--disable-frontend-multiprocessing",
                 "--dtype",
                 "bfloat16",
                 "--host",
@@ Expand Down @@

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[skyrl-train] Upgrade vllm to 0.13.0 (and torch to 2.9.0) for both vllm and mcore extras #887

Uh oh!

Diff view

Diff view

There are no files selected for viewing

Uh oh!

Uh oh!