feat: Add AI2D task and refactor registries to use decorator pattern

silviase · claude · silviase · commit 03757c7d6e06 · 2025-07-24T23:03:41.000+09:00
- Add new AI2D task that loads the lmms-lab/ai2d dataset - Refactor task registry to use @register_task decorator pattern - Refactor scorer registry to use @register_scorer decorator pattern - Update all task and scorer classes to use the new decorators - Support multiple registration names for each task/scorer - Maintain full backward compatibility with existing API This change eliminates duplication between __init__.py and registry files, making it easier to add new tasks and scorers. 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
diff --git a/src/eval_mm/metrics/cc_ocr_scorer.py b/src/eval_mm/metrics/cc_ocr_scorer.py
@@ -3,6 +3,7 @@
 from typing import List, Dict, Any, cast  # Added cast for type hinting clarity
 
 from .scorer import Scorer, AggregateOutput, ScorerConfig
+from .scorer_registry import register_scorer
 
 
 def token_normalize(
@@ -158,6 +159,7 @@ def calculate_metrics(
 
 
 # CCOCRScorer class, specialized for Japanese (character-level, no alphanum_only)
+@register_scorer("cc-ocr", "CC-OCR", "CCOCRScorer")
 class CCOCRScorer(Scorer):
     def __init__(self, config: ScorerConfig):
         super().__init__(config)
diff --git a/src/eval_mm/metrics/exact_match_scorer.py b/src/eval_mm/metrics/exact_match_scorer.py
@@ -1,6 +1,8 @@
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 
 
+@register_scorer("exact-match", "ExactMatch", "ExactMatchScorer")
 class ExactMatchScorer(Scorer):
     @staticmethod
     def score(refs: list[str], preds: list[str]) -> list[int]:
diff --git a/src/eval_mm/metrics/heron_bench_scorer.py b/src/eval_mm/metrics/heron_bench_scorer.py
@@ -2,6 +2,7 @@
 from collections import defaultdict
 import numpy as np
 from eval_mm.metrics.scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 import re
 import json
 
@@ -110,6 +111,7 @@ def ask_gpt4_batch(
     return completions
 
 
+@register_scorer("heron-bench", "HeronBench", "HeronBenchScorer")
 class HeronBenchScorer(Scorer):
     def score(self, refs, preds: list[str]) -> list[dict[str, int]]:
         docs = self.config.docs
diff --git a/src/eval_mm/metrics/jdocqa_scorer.py b/src/eval_mm/metrics/jdocqa_scorer.py
@@ -1,4 +1,5 @@
 from eval_mm.metrics.scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 from sacrebleu import sentence_bleu
 from unicodedata import normalize
 
@@ -38,6 +39,7 @@ def bleu_ja(refs, pred):
     return bleu_score.score / 100
 
 
+@register_scorer("jdocqa", "JDocQA", "JDocQAScorer")
 class JDocQAScorer(Scorer):
     def score(self, refs: list[str], preds: list[str]) -> list[int]:
         docs = self.config.docs
diff --git a/src/eval_mm/metrics/jic_vqa_scorer.py b/src/eval_mm/metrics/jic_vqa_scorer.py
@@ -1,6 +1,8 @@
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 
 
+@register_scorer("jic-vqa", "JICVQA", "JICVQAScorer")
 class JICVQAScorer(Scorer):
     @staticmethod
     def score(refs: list[str], preds: list[str]) -> list[int]:
diff --git a/src/eval_mm/metrics/jmmmu_scorer.py b/src/eval_mm/metrics/jmmmu_scorer.py
@@ -4,6 +4,7 @@
 import numpy as np
 from datasets import Dataset
 from eval_mm.metrics.scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 
 
 DOMAIN_CAT2SUB_CAT = {
@@ -411,6 +412,7 @@ def get_score(doc: Dataset, pred: str, random_choice: bool = False) -> int:
     return score
 
 
+@register_scorer("jmmmu", "JMMMU", "JMMMUScorer")
 class JMMMUScorer(Scorer):
     def score(self, refs: list[str], preds: list[str]) -> list[int]:
         docs = self.config.docs
diff --git a/src/eval_mm/metrics/llm_as_a_judge_scorer.py b/src/eval_mm/metrics/llm_as_a_judge_scorer.py
@@ -1,4 +1,5 @@
 from eval_mm.metrics.scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 from tqdm import tqdm
 import re
 
@@ -24,6 +25,7 @@
 """
 
 
+@register_scorer("llm-as-a-judge", "LLM-as-a-Judge", "LlmAsaJudgeScorer")
 class LlmAsaJudgeScorer(Scorer):
     def score(
         self,
diff --git a/src/eval_mm/metrics/mecha_ja_scorer.py b/src/eval_mm/metrics/mecha_ja_scorer.py
@@ -1,5 +1,6 @@
 # mecha-ja-scorer.py
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 import re
 from collections import defaultdict
 
@@ -9,6 +10,7 @@
 }
 
 
+@register_scorer("mecha-ja", "MECHAJa", "MECHAJaScorer")
 class MECHAJaScorer(Scorer):
     @staticmethod
     def _parse_rotation_id(qid: str) -> str:
diff --git a/src/eval_mm/metrics/mmmu_scorer.py b/src/eval_mm/metrics/mmmu_scorer.py
@@ -4,6 +4,7 @@
 import numpy as np
 from datasets import Dataset
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 
 DOMAIN_CAT2SUB_CAT = {
     "Art and Design": ["Art", "Art_Theory", "Design", "Music"],
@@ -410,6 +411,7 @@ def get_score(doc: Dataset, pred: str, random_choice: bool) -> int:
     return score
 
 
+@register_scorer("mmmu", "MMMU", "MMMUScorer")
 class MMMUScorer(Scorer):
     def score(self, refs: list[str], preds: list[str]) -> list[int]:
         docs = self.config.docs
diff --git a/src/eval_mm/metrics/rougel_scorer.py b/src/eval_mm/metrics/rougel_scorer.py
@@ -6,6 +6,7 @@
 import emoji
 import unicodedata
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 from concurrent.futures import ProcessPoolExecutor, Future
 
 
@@ -72,6 +73,7 @@ def rouge_ja(refs: list[str], preds: list[str]) -> dict:
     return {type: result[type].mid.fmeasure * 100 for type in rouge_types}
 
 
+@register_scorer("rougel", "RougeL", "RougeLScorer")
 class RougeLScorer(Scorer):
     @staticmethod
     def score(refs: list[str], preds: list[str]) -> list[float]:
diff --git a/src/eval_mm/metrics/scorer_registry.py b/src/eval_mm/metrics/scorer_registry.py
@@ -1,47 +1,45 @@
-from .heron_bench_scorer import HeronBenchScorer
-from .exact_match_scorer import ExactMatchScorer
-from .llm_as_a_judge_scorer import LlmAsaJudgeScorer
-from .rougel_scorer import RougeLScorer
-from .substring_match_scorer import SubstringMatchScorer
-from .scorer import Scorer
-from .jmmmu_scorer import JMMMUScorer
-from .mmmu_scorer import MMMUScorer
-from .jdocqa_scorer import JDocQAScorer
-from .jic_vqa_scorer import JICVQAScorer
-from .mecha_ja_scorer import MECHAJaScorer
-from .cc_ocr_scorer import CCOCRScorer
-from .scorer import ScorerConfig
-from typing import Callable
+"""
+Scorer registry with decorator-based registration to avoid duplication.
+"""
+
+from typing import Type, Callable
+from .scorer import Scorer, ScorerConfig
+
+# Global registry dictionary
+_scorer_registry: dict[str, Type[Scorer]] = {}
+
+
+def register_scorer(*names: str):
+    """
+    Decorator to register a scorer class in the global registry.
+    Can register multiple names for the same scorer.
+    
+    Usage:
+        @register_scorer("my-scorer-name", "MyScorer", "MY_SCORER")
+        class MyScorer(Scorer):
+            ...
+    """
+    def decorator(cls: Type[Scorer]) -> Type[Scorer]:
+        for name in names:
+            _scorer_registry[name] = cls
+        return cls
+    return decorator
 
 
 class ScorerRegistry:
     """Registry to map metrics to their corresponding scorer classes."""
 
-    _scorers: dict[str, Callable[[ScorerConfig], Scorer]] = {
-        "heron-bench": HeronBenchScorer,
-        "exact-match": ExactMatchScorer,
-        "llm-as-a-judge": LlmAsaJudgeScorer,
-        "rougel": RougeLScorer,
-        "substring-match": SubstringMatchScorer,
-        "jmmmu": JMMMUScorer,
-        "jdocqa": JDocQAScorer,
-        "mmmu": MMMUScorer,
-        "jic-vqa": JICVQAScorer,
-        "mecha-ja": MECHAJaScorer,
-        "cc-ocr": CCOCRScorer,
-    }
-
     @classmethod
     def get_metric_list(cls) -> list[str]:
         """Get a list of supported metrics."""
-        return list(cls._scorers.keys())
+        return list(_scorer_registry.keys())
 
     @classmethod
     def load_scorer(
         cls, metric: str, scorer_config: ScorerConfig = ScorerConfig()
     ) -> Scorer:
         """Load a scorer instance from the scorer registry."""
         try:
-            return cls._scorers[metric](scorer_config)  # type: ignore
+            return _scorer_registry[metric](scorer_config)
         except KeyError:
-            raise ValueError(f"Metric '{metric}' is not supported.")
+            raise ValueError(f"Metric '{metric}' is not supported.")
diff --git a/src/eval_mm/metrics/substring_match_scorer.py b/src/eval_mm/metrics/substring_match_scorer.py
@@ -1,6 +1,8 @@
 from .scorer import Scorer, AggregateOutput
+from .scorer_registry import register_scorer
 
 
+@register_scorer("substring-match", "SubstringMatch", "SubstringMatchScorer")
 class SubstringMatchScorer(Scorer):
     @staticmethod
     def score(refs: list[str], preds: list[str]) -> list[int]:
diff --git a/src/eval_mm/tasks/__init__.py b/src/eval_mm/tasks/__init__.py
@@ -11,6 +11,7 @@
 from .mmmlu import MMMLU
 from .cc_ocr import CCOCR
 from .cvqa import CVQA
+from .ai2d import AI2D
 from .task_registry import TaskRegistry
 from .task import TaskConfig
 
@@ -28,6 +29,7 @@
     "MMMLU",
     "CCOCR",
     "CVQA",
+    "AI2D",
     "TaskRegistry",
     "TaskConfig",
 ]
diff --git a/src/eval_mm/tasks/ai2d.py b/src/eval_mm/tasks/ai2d.py
@@ -0,0 +1,55 @@
+from eval_mm.tasks.task import Task
+from eval_mm.tasks.task_registry import register_task
+from datasets import load_dataset, Dataset
+from PIL import Image
+
+
+@register_task("ai2d", "AI2D")
+class AI2D(Task):
+    def __init__(self, config):
+        super().__init__(config)
+
+    @staticmethod
+    def _prepare_dataset() -> Dataset:
+        ds = load_dataset("lmms-lab/ai2d", split="test")
+        ds = ds.map(lambda example, idx: {"question_id": idx}, with_indices=True)
+        return ds
+
+    @staticmethod
+    def doc_to_text(doc) -> str:
+        question = doc["question"]
+        choices = doc["options"]
+        len_choices = len(choices)
+        
+        pre_prompt = ""
+        post_prompt = "\nAnswer with the option's letter from the given choices directly."
+        
+        options = [chr(ord("A") + i) for i in range(len_choices)]
+        choices_str = "\n".join([f"{option}. {choice}" for option, choice in zip(options, choices)])
+        
+        return f"{pre_prompt}{question}\n{choices_str}{post_prompt}"
+
+    @staticmethod
+    def doc_to_visual(doc) -> list[Image.Image]:
+        return [doc['image']]
+
+    @staticmethod
+    def doc_to_id(doc) -> str:
+        return str(doc['question_id'])
+
+    @staticmethod
+    def doc_to_answer(doc) -> str:
+        return doc['answer']
+
+
+def test_task():
+    from eval_mm.tasks.task import TaskConfig
+
+    task = AI2D(TaskConfig())
+    ds = task.dataset
+    print(ds[0])
+    assert isinstance(task.doc_to_text(ds[0]), str)
+    assert isinstance(task.doc_to_visual(ds[0]), list)
+    assert isinstance(task.doc_to_visual(ds[0])[0], Image.Image)
+    assert isinstance(task.doc_to_id(ds[0]), str)
+    assert isinstance(task.doc_to_answer(ds[0]), str)
diff --git a/src/eval_mm/tasks/cc_ocr.py b/src/eval_mm/tasks/cc_ocr.py
@@ -1,5 +1,6 @@
 from datasets import Dataset, load_dataset
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 from io import BytesIO
 import base64
@@ -9,6 +10,7 @@ def base64_to_pil_image(base64_string: str) -> Image.Image:
     return Image.open(BytesIO(base64.b64decode(base64_string)))
 
 
+@register_task("cc-ocr", "CC-OCR", "CCOCR")
 class CCOCR(Task):
     """
     The CCOCR class processes the CC-OCR dataset for Japanese samples and provides
diff --git a/src/eval_mm/tasks/cvqa.py b/src/eval_mm/tasks/cvqa.py
@@ -1,5 +1,6 @@
 from datasets import Dataset, load_dataset
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 
 MULTI_CHOICE_PROMPT = (
@@ -30,6 +31,7 @@ def construct_prompt(question, options):
     return f"{question}\n{parsed_options}\n\n{MULTI_CHOICE_PROMPT}"
 
 
+@register_task("cvqa", "CVQA")
 class CVQA(Task):
     default_metric = "substring-match"
 
diff --git a/src/eval_mm/tasks/ja_multi_image_vqa.py b/src/eval_mm/tasks/ja_multi_image_vqa.py
@@ -3,11 +3,13 @@
 
 
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 
 # import neologdn FIXME: fix c++12 error when installing neologdn
 
 
+@register_task("ja-multi-image-vqa", "JAMultiImageVQA", "Ja-Multi-Image-VQA")
 class JAMultiImageVQA(Task):
     default_metric = "rougel"
 
diff --git a/src/eval_mm/tasks/ja_vg_vqa_500.py b/src/eval_mm/tasks/ja_vg_vqa_500.py
@@ -1,9 +1,11 @@
 from datasets import Dataset, concatenate_datasets, load_dataset
 
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 
 
+@register_task("ja-vg-vqa-500", "JaVGVQA500", "JA-VG-VQA-500")
 class JaVGVQA500(Task):
     default_metric = "rougel"
 
diff --git a/src/eval_mm/tasks/ja_vlm_bench_in_the_wild.py b/src/eval_mm/tasks/ja_vlm_bench_in_the_wild.py
@@ -1,9 +1,11 @@
 from datasets import Dataset, load_dataset
 
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 
 
+@register_task("ja-vlm-bench-in-the-wild", "JA-VLM-Bench-In-the-Wild", "JaVLMBenchIntheWild")
 class JaVLMBenchIntheWild(Task):
     default_metric = "rougel"
 
diff --git a/src/eval_mm/tasks/japanese_heron_bench.py b/src/eval_mm/tasks/japanese_heron_bench.py
@@ -1,9 +1,11 @@
 from datasets import load_dataset, Dataset
 
 from .task import Task
+from .task_registry import register_task
 from PIL import Image
 
 
+@register_task("japanese-heron-bench", "JapaneseHeronBench", "Japanese-Heron-Bench")
 class JapaneseHeronBench(Task):
     default_metric = "heron-bench"
 
diff --git a/src/eval_mm/tasks/jdocqa.py b/src/eval_mm/tasks/jdocqa.py
@@ -1,10 +1,12 @@
 from datasets import Dataset, load_dataset
 
 from .task import Task
+from .task_registry import register_task
 
 from PIL import Image
 
 
+@register_task("jdocqa", "JDocQA")
 class JDocQA(Task):
     default_metric = "jdocqa"
 
diff --git a/src/eval_mm/tasks/jic_vqa.py b/src/eval_mm/tasks/jic_vqa.py
diff --git a/src/eval_mm/tasks/jmmmu.py b/src/eval_mm/tasks/jmmmu.py
diff --git a/src/eval_mm/tasks/llava_bench_in_the_wild.py b/src/eval_mm/tasks/llava_bench_in_the_wild.py
diff --git a/src/eval_mm/tasks/mecha_ja.py b/src/eval_mm/tasks/mecha_ja.py
diff --git a/src/eval_mm/tasks/mmmlu.py b/src/eval_mm/tasks/mmmlu.py
diff --git a/src/eval_mm/tasks/mmmu.py b/src/eval_mm/tasks/mmmu.py
diff --git a/src/eval_mm/tasks/mnist.py b/src/eval_mm/tasks/mnist.py
diff --git a/src/eval_mm/tasks/task_registry.py b/src/eval_mm/tasks/task_registry.py