fix test bug

speed1313 · speed1313 · commit 19d2d7f785e9 · 2025-03-17T19:54:44.000+09:00
diff --git a/src/eval_mm/metrics/llm_as_a_judge_scorer.py b/src/eval_mm/metrics/llm_as_a_judge_scorer.py
@@ -98,9 +98,8 @@ def aggregate(scores: list, **kwargs) -> float:
 
 
 def test_llm_as_a_judge_scorer():
-    from eval_mm.utils.azure_client import OpenAIChatAPI
-
-    client = OpenAIChatAPI()
+    from eval_mm.utils.azure_client import MochChatAPI
+    client = MochChatAPI()
     questions = ["What is the capital of Japan?", "What is the capital of France?"]
     answers = ["Tokyo", "Paris"]
     preds = ["Tokyo", "Paris"]
@@ -114,6 +113,6 @@ def test_llm_as_a_judge_scorer():
         judge_model=model_name,
         batch_size=batch_size,
     )
-    assert scores == [5, 5]
+    assert scores == [1, 1]
     scores = LlmAsaJudgeScorer.aggregate(scores)
-    assert scores == 5.0
+    assert scores == 1.0
diff --git a/src/eval_mm/tasks/jic_vqa.py b/src/eval_mm/tasks/jic_vqa.py
@@ -114,7 +114,7 @@ def doc_to_text(doc) -> str:
 
     @staticmethod
     def doc_to_visual(doc) -> list[Image.Image]:
-        return doc["image"]
+        return [doc["image"]]
 
     @staticmethod
     def doc_to_id(doc) -> int: