llm-jp
diff --git a/‎create_env.fish‎
Lines changed: 13 additions & 0 deletions b/‎create_env.fish‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎eval_all.sh‎
Lines changed: 56 additions & 38 deletions b/‎eval_all.sh‎
Lines changed: 56 additions & 38 deletions
diff --git a/‎eval_with_vllm.sh‎
Lines changed: 62 additions & 18 deletions b/‎eval_with_vllm.sh‎
Lines changed: 62 additions & 18 deletions
@@ -0,0 +1,13 @@
+set -x CUDA_HOME /usr/local/cuda
+set -x PATH /usr/local/cuda/bin $PATH
+set -x LD_LIBRARY_PATH /usr/local/cuda/lib64 $LD_LIBRARY_PATH
+set -x ENV_NAME normal vllm_normal # dev evovlm vilaja sarashina normal old stablevlm phi pixtral calm heron_nvila vllm_normal
+for env_name in $ENV_NAME
+    uv venv .uv/$env_name-env --python python3.12
+    source .uv/$env_name-env/bin/activate.fish
+    echo "===> Installingdependencies for $env_name"
+    uv sync --group $env_name --active
+end
+
+# Refer to this url for handling flash-attn
+# https://docs.astral.sh/uv/concepts/projects/config/#build-isolation
@@ -5,64 +5,82 @@ set -eux  # エラーが発生したらスクリプトを停止する
 
 # Model name to group name mapping
 declare -A MODEL_GROUP_MAP=(
-    # ["stabilityai/japanese-instructblip-alpha"]="normal"
-    # ["stabilityai/japanese-stable-vlm"]="normal"
-    # ["cyberagent/llava-calm2-siglip"]="calm"
-    # ["llava-hf/llava-1.5-7b-hf"]="normal"
-    # ["llava-hf/llava-v1.6-mistral-7b-hf"]="normal"
-    # ["neulab/Pangea-7B-hf"]="sarashina"
-    # ["meta-llama/Llama-3.2-11B-Vision-Instruct"]="normal"
-    # ["meta-llama/Llama-3.2-90B-Vision-Instruct"]="normal"
-    # ["OpenGVLab/InternVL2-8B"]="normal"
-    # ["OpenGVLab/InternVL2-26B"]="normal"
-    # ["Qwen/Qwen2-VL-7B-Instruct"]="normal"
-    # ["Qwen/Qwen2-VL-72B-Instruct"]="normal"
-    # ["Qwen/Qwen2.5-VL-7B-Instruct"]="normal"
-    # ["Qwen/Qwen2.5-VL-72B-Instruct"]="normal"
-    # ["gpt-4o-2024-11-20"]="normal"
-    # ["mistralai/Pixtral-12B-2409"]="pixtral"
-    # ["llm-jp/llm-jp-3-vila-14b"]="vilaja"
-    # ["Efficient-Large-Model/VILA1.5-13b"]="vilaja"
-    # ["SakanaAI/Llama-3-EvoVLM-JP-v2"]="evovlm"
-    # ["google/gemma-3-4b-it"]="normal"
-    # ["google/gemma-3-12b-it"]="normal"
-    # ["google/gemma-3-27b-it"]="normal"
-    # ["sbintuitions/sarashina2-vision-8b"]="sarashina"
-    # ["sbintuitions/sarashina2-vision-14b"]="sarashina"
-    # ["microsoft/Phi-4-multimodal-instruct"]="phi"
+    ["stabilityai/japanese-instructblip-alpha"]="normal"
+    ["stabilityai/japanese-stable-vlm"]="normal"
+    ["cyberagent/llava-calm2-siglip"]="calm"
+    ["llava-hf/llava-1.5-7b-hf"]="normal"
+    ["llava-hf/llava-v1.6-mistral-7b-hf"]="normal"
+    ["neulab/Pangea-7B-hf"]="sarashina"
+    ["meta-llama/Llama-3.2-11B-Vision-Instruct"]="normal"
+    ["meta-llama/Llama-3.2-90B-Vision-Instruct"]="normal"
+    ["OpenGVLab/InternVL2-8B"]="normal"
+    ["OpenGVLab/InternVL2-26B"]="normal"
+    ["Qwen/Qwen2-VL-7B-Instruct"]="normal"
+    ["Qwen/Qwen2-VL-72B-Instruct"]="normal"
+    ["Qwen/Qwen2.5-VL-7B-Instruct"]="normal"
+    ["Qwen/Qwen2.5-VL-72B-Instruct"]="normal"
+    ["gpt-4o-2024-11-20"]="normal"
+    ["mistralai/Pixtral-12B-2409"]="pixtral"
+    ["llm-jp/llm-jp-3-vila-14b"]="vilaja"
+    ["Efficient-Large-Model/VILA1.5-13b"]="vilaja"
+    ["SakanaAI/Llama-3-EvoVLM-JP-v2"]="evovlm"
+    ["google/gemma-3-4b-it"]="normal"
+    ["google/gemma-3-12b-it"]="normal"
+    ["google/gemma-3-27b-it"]="normal"
+    ["sbintuitions/sarashina2-vision-8b"]="sarashina"
+    ["sbintuitions/sarashina2-vision-14b"]="sarashina"
+    ["microsoft/Phi-4-multimodal-instruct"]="phi"
     ["turing-motors/Heron-NVILA-Lite-15B"]="heron_nvila"
 )
 
-# Task list
+
 declare -a task_list=(
-    # "japanese-heron-bench"
+    "japanese-heron-bench"
     "ja-vlm-bench-in-the-wild"
-    # "ja-vg-vqa-500"
+    "ja-vg-vqa-500"
     "jmmmu"
     "ja-multi-image-vqa"
     "jdocqa"
     "mmmu"
     "llava-bench-in-the-wild"
-    # "jic-vqa"
+    "jic-vqa"
+    "cvqa"
+    "cc-ocr"
     "mecha-ja"
-    # "cc-ocr"
-    # "cvqa"
+    "ai2d"
+    "blink"
+    "docvqa"
+    "infographicvqa"
+    "textvqa"
+    "chartqa"
+    "chartqapro"
+    "mathvista"
+    "okvqa"
 )
 
-# Define metrics per task
+# === Metrics Mapping ===
 declare -A METRIC_MAP=(
     ["japanese-heron-bench"]="heron-bench"
-    ["ja-vlm-bench-in-the-wild"]="llm-as-a-judge rougel"
-    ["ja-vg-vqa-500"]="llm-as-a-judge rougel"
+    ["ja-vlm-bench-in-the-wild"]="llm-as-a-judge"
+    ["ja-vg-vqa-500"]="llm-as-a-judge"
     ["jmmmu"]="jmmmu"
-    ["ja-multi-image-vqa"]="llm-as-a-judge rougel"
-    ["jdocqa"]="jdocqa llm-as-a-judge"
+    ["ja-multi-image-vqa"]="llm-as-a-judge"
+    ["jdocqa"]="llm-as-a-judge"
     ["mmmu"]="mmmu"
-    ["llava-bench-in-the-wild"]="llm-as-a-judge rougel"
+    ["llava-bench-in-the-wild"]="llm-as-a-judge"
     ["jic-vqa"]="jic-vqa"
     ["mecha-ja"]="mecha-ja"
     ["cc-ocr"]="cc-ocr"
+    ["ai2d"]="ai2d"
+    ["blink"]="blink"
     ["cvqa"]="substring-match"
+    ["docvqa"]="substring-match"
+    ["infographicvqa"]="substring-match"
+    ["textvqa"]="substring-match"
+    ["chartqa"]="substring-match"
+    ["chartqapro"]="substring-match"
+    ["mathvista"]="mathvista"
+    ["okvqa"]="substring-match"
 )
 
 # Result directories
@@ -81,7 +99,7 @@ for RESULT_DIR in "${result_dir_list[@]}"; do
                 --model_id "$model_name" \
                 --task_id "$task" \
                 --metrics $METRIC \
-                --judge_model "gpt-4o-2024-11-20" \
+                --judge_model "gpt-4.1-2025-04-14" \
                 --result_dir "$RESULT_DIR"
         done
     done
 
@@ -1,36 +1,78 @@
 # Set CUDA devices
 set -eux  # エラーが発生したらスクリプトを停止する
 
-#export CUDA_VISIBLE_DEVICES=0
+export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5
 
 # Model name to group name mapping
 declare -A MODEL_GROUP_MAP=(
-    ["Qwen/Qwen2.5-VL-3B-Instruct"]="normal"
-    ["Qwen/Qwen2.5-VL-7B-Instruct"]="normal"
-    ["Qwen/Qwen2.5-VL-32B-Instruct"]="normal"
-    # ["Qwen/Qwen2.5-VL-72B-Instruct"]="normal"
-    ["google/gemma-3-4b-it"]="normal"
-    ["google/gemma-3-12b-it"]="normal"
-    ["google/gemma-3-27b-it"]="normal"
+    # ["Qwen/Qwen3-VL-30B-A3B-Instruct"]="vllm_normal"
+    # ["moonshotai/Kimi-VL-A3B-Instruct"]="vllm_normal" # 今は動かない
+    # ["deepseek-ai/deepseek-vl2"]="vllm_normal"
+    # ["openbmb/MiniCPM-o-2_6"]="vllm_normal"
+    ["zai-org/GLM-4.5V"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-1B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-2B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-4B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-8B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-16B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2-34B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2.5-2B"]="vllm_normal"
+    # ["AIDC-AI/Ovis2.5-9B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-1B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-2B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-8B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-14B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-38B"]="vllm_normal"
+    # ["OpenGVLab/InternVL3-78B"]="vllm_normal"
 )
 
-# Task list
 declare -a task_list=(
     "japanese-heron-bench"
+    "ja-vlm-bench-in-the-wild"
+    "ja-vg-vqa-500"
+    "jmmmu"
+    "ja-multi-image-vqa"
+    "jdocqa"
+    "mmmu"
+    "llava-bench-in-the-wild"
+    "jic-vqa"
+    "cvqa"
+    "cc-ocr"
+    "mecha-ja"
+    "ai2d"
+    # "blink"
+    "docvqa"
+    "infographicvqa"
+    "textvqa"
+    "chartqa"
+    # "chartqapro"
+    # "mathvista"
+    "okvqa"
 )
 
-# Define metrics per task
+# === Metrics Mapping ===
 declare -A METRIC_MAP=(
     ["japanese-heron-bench"]="heron-bench"
-    ["ja-vlm-bench-in-the-wild"]="llm-as-a-judge,rougel"
-    ["ja-vg-vqa-500"]="llm-as-a-judge,rougel"
+    ["ja-vlm-bench-in-the-wild"]="llm-as-a-judge"
+    ["ja-vg-vqa-500"]="llm-as-a-judge"
     ["jmmmu"]="jmmmu"
-    ["ja-multi-image-vqa"]="llm-as-a-judge,rougel"
-    ["jdocqa"]="jdocqa,llm-as-a-judge"
+    ["ja-multi-image-vqa"]="llm-as-a-judge"
+    ["jdocqa"]="llm-as-a-judge"
     ["mmmu"]="mmmu"
-    ["llava-bench-in-the-wild"]="llm-as-a-judge,rougel"
+    ["llava-bench-in-the-wild"]="llm-as-a-judge"
     ["jic-vqa"]="jic-vqa"
     ["mecha-ja"]="mecha-ja"
+    ["cc-ocr"]="cc-ocr"
+    ["ai2d"]="ai2d"
+    ["blink"]="blink"
+    ["cvqa"]="substring-match"
+    ["docvqa"]="substring-match"
+    ["infographicvqa"]="substring-match"
+    ["textvqa"]="substring-match"
+    ["chartqa"]="substring-match"
+    ["chartqapro"]="substring-match"
+    ["mathvista"]="mathvista"
+    ["okvqa"]="substring-match"
 )
 
 # Result directories
@@ -44,13 +86,15 @@ for RESULT_DIR in "${result_dir_list[@]}"; do
         METRIC=${METRIC_MAP[$task]}
         for model_name in "${!MODEL_GROUP_MAP[@]}"; do
             model_group=${MODEL_GROUP_MAP[$model_name]}
-            uv sync --group vllm_normal
-            uv run --group vllm_normal  python examples/sample_vllm.py \
+            source .uv/vllm_normal-env/bin/activate
+            uv pip list
+            python examples/sample_vllm.py \
                 --model_id "$model_name" \
                 --task_id "$task" \
                 --metrics "$METRIC" \
-                --judge_model "gpt-4o-2024-11-20" \
+                --judge_model "gpt-4.1-2025-04-14" \
                 --result_dir "$RESULT_DIR" \
+                --tensor_parallel_size 4 \
                 --inference_only
         done
     done