feat: register deepseek vl2 for vllm eval

Silviase · Silviase · commit f8f135be66b5 · 2025-10-13T14:55:07.000+09:00
diff --git a/eval_with_vllm.sh b/eval_with_vllm.sh
@@ -7,6 +7,7 @@ export CUDA_VISIBLE_DEVICES=0,1
 declare -A MODEL_GROUP_MAP=(
     ["Qwen/Qwen3-VL-30B-A3B-Instruct"]="vllm_normal"
     # ["moonshotai/Kimi-VL-A3B-Instruct"]="vllm_normal" # 今は動かない
+    ["deepseek-ai/deepseek-vl2"]="vllm_normal"
     ["OpenGVLab/InternVL3-1B"]="vllm_normal"
     ["OpenGVLab/InternVL3-2B"]="vllm_normal"
     ["OpenGVLab/InternVL3-8B"]="vllm_normal"
diff --git a/examples/vllm_registry.py b/examples/vllm_registry.py
@@ -46,6 +46,10 @@ def __init__(self, model_id: str):
                 self._engine_args_kimi_vl,
                 self._load_kimi_vl,
             ),
+            "deepseek-ai/deepseek-vl2": (
+                self._engine_args_deepseek_vl2,
+                self._load_deepseek_vl2,
+            ),
         }
 
         for internvl_model in INTERNVL_MODELS:
@@ -199,6 +203,36 @@ def _load_internvl(
 
         return ModelRequestData(prompts=prompts, stop_token_ids=stop_token_ids)
 
+    def _engine_args_deepseek_vl2(self) -> EngineArgs:
+        return EngineArgs(
+            model=self.model_id,
+            max_model_len=4096,
+            max_num_seqs=2,
+            hf_overrides={"architectures": ["DeepseekVLV2ForCausalLM"]},
+            limit_mm_per_prompt={self.modality: 1},
+        )
+
+    def _load_deepseek_vl2(
+        self, texts: list[str], images_list: list[list[Image.Image]]
+    ) -> ModelRequestData:
+        if len(texts) != len(images_list):
+            msg = "texts and images_list must have identical length"
+            raise ValueError(msg)
+
+        prompts: list[str] = []
+        for text, images in zip(texts, images_list):
+            num_images = len(images)
+            if num_images > 0:
+                image_placeholders = " ".join("<image>" for _ in range(num_images))
+                user_prefix = f"<|User|>: {image_placeholders}\n"
+            else:
+                user_prefix = "<|User|>:\n"
+
+            prompt = f"{user_prefix}{text}\n\n<|Assistant|>:"
+            prompts.append(prompt)
+
+        return ModelRequestData(prompts=prompts)
+
 
 def _generate_dummy_images(count: int) -> list[Image.Image]:
     """Return placeholder PIL images for prompt-construction tests."""
@@ -248,6 +282,20 @@ def preview_internvl_requests(
     return registry.build_requests(texts, images_list)
 
 
+def preview_deepseek_vl2_requests(
+    texts: list[str], image_counts: list[int]
+) -> ModelRequestData:
+    """Build prompts for Deepseek-VL2 using dummy images (testing helper)."""
+
+    if len(texts) != len(image_counts):
+        msg = "texts and image_counts must have identical length"
+        raise ValueError(msg)
+
+    images_list = [_generate_dummy_images(count) for count in image_counts]
+    registry = VLLMModelRegistry("deepseek-ai/deepseek-vl2")
+    return registry.build_requests(texts, images_list)
+
+
 def _parse_cli_args() -> argparse.Namespace:
     parser = argparse.ArgumentParser(
         description="Preview prompts generated by the VLLM model registry.",
@@ -258,6 +306,7 @@ def _parse_cli_args() -> argparse.Namespace:
         choices=[
             "Qwen/Qwen3-VL-30B-A3B-Instruct",
             "moonshotai/Kimi-VL-A3B-Instruct",
+            "deepseek-ai/deepseek-vl2",
             *INTERNVL_MODELS,
         ],
         help="Registered model identifier to preview.",
@@ -308,6 +357,7 @@ def _preview_cli() -> None:
     preview_dispatch: dict[str, Callable[[list[str], list[int]], ModelRequestData]] = {
         "Qwen/Qwen3-VL-30B-A3B-Instruct": preview_qwen3_vl_requests,
         "moonshotai/Kimi-VL-A3B-Instruct": preview_kimi_vl_requests,
+        "deepseek-ai/deepseek-vl2": preview_deepseek_vl2_requests,
     }
 
     for internvl_model in INTERNVL_MODELS: