Fix result

speed1313 · speed1313 · commit 257b0141f40d · 2025-05-18T12:44:13.000+09:00
diff --git a/github_pages/public/leaderboard.json b/github_pages/public/leaderboard.json
@@ -7,7 +7,7 @@
         "macro_f1": 0.3
       },
       "CVQA": {
-        "Acc": 0.24
+        "Acc": 23.65
       },
       "Heron": {
         "LLM": 23.53
@@ -95,7 +95,7 @@
         "macro_f1": 10.44
       },
       "CVQA": {
-        "Acc": 0.44
+        "Acc": 43.84
       },
       "Heron": {
         "LLM": 47.59
@@ -142,7 +142,7 @@
         "macro_f1": 11.37
       },
       "CVQA": {
-        "Acc": 0.07
+        "Acc": 6.9
       },
       "Heron": {
         "LLM": 54.1
@@ -189,7 +189,7 @@
         "macro_f1": 11.55
       },
       "CVQA": {
-        "Acc": 0.3
+        "Acc": 29.56
       },
       "Heron": {
         "LLM": 68.03
@@ -236,7 +236,7 @@
         "macro_f1": 8.2
       },
       "CVQA": {
-        "Acc": 0.49
+        "Acc": 48.77
       },
       "Heron": {
         "LLM": 60.45
@@ -283,7 +283,7 @@
         "macro_f1": 23.23
       },
       "CVQA": {
-        "Acc": 0.56
+        "Acc": 56.16
       },
       "Heron": {
         "LLM": 60.15
@@ -368,7 +368,7 @@
         "macro_f1": 14.46
       },
       "CVQA": {
-        "Acc": 0.41
+        "Acc": 40.89
       },
       "Heron": {
         "LLM": 43.14
@@ -415,7 +415,7 @@
         "macro_f1": 20.12
       },
       "CVQA": {
-        "Acc": 0.27
+        "Acc": 26.6
       },
       "Heron": {
         "LLM": 30.04
@@ -462,7 +462,7 @@
         "macro_f1": 18.74
       },
       "CVQA": {
-        "Acc": 0.48
+        "Acc": 48.28
       },
       "Heron": {
         "LLM": 56.97
@@ -509,7 +509,7 @@
         "macro_f1": 27.17
       },
       "CVQA": {
-        "Acc": 0.49
+        "Acc": 49.26
       },
       "Heron": {
         "LLM": 60.88
@@ -556,7 +556,7 @@
         "macro_f1": 27.71
       },
       "CVQA": {
-        "Acc": 0.52
+        "Acc": 51.72
       },
       "Heron": {
         "LLM": 38.08
@@ -603,7 +603,7 @@
         "macro_f1": 20.56
       },
       "CVQA": {
-        "Acc": 0.44
+        "Acc": 43.84
       },
       "Heron": {
         "LLM": 46.93
@@ -650,7 +650,7 @@
         "macro_f1": 37.33
       },
       "CVQA": {
-        "Acc": 0.48
+        "Acc": 48.28
       },
       "Heron": {
         "LLM": 49.82
@@ -697,7 +697,7 @@
         "macro_f1": 38.51
       },
       "CVQA": {
-        "Acc": 0.5
+        "Acc": 50.25
       },
       "Heron": {
         "LLM": 59.69
@@ -744,7 +744,7 @@
         "macro_f1": 74.77
       },
       "CVQA": {
-        "Acc": 0.56
+        "Acc": 55.67
       },
       "Heron": {
         "LLM": 70.29
@@ -832,7 +832,7 @@
         "macro_f1": 77.14
       },
       "CVQA": {
-        "Acc": 0.69
+        "Acc": 69.46
       },
       "Heron": {
         "LLM": 85.46
@@ -879,7 +879,7 @@
         "macro_f1": 55.49
       },
       "CVQA": {
-        "Acc": 0.49
+        "Acc": 49.26
       },
       "Heron": {
         "LLM": 52.83
@@ -926,7 +926,7 @@
         "macro_f1": 64.92
       },
       "CVQA": {
-        "Acc": 0.59
+        "Acc": 58.62
       },
       "Heron": {
         "LLM": 72.19
@@ -973,7 +973,7 @@
         "macro_f1": 66.92
       },
       "CVQA": {
-        "Acc": 0.63
+        "Acc": 62.56
       },
       "Heron": {
         "LLM": 69.15
@@ -1020,7 +1020,7 @@
         "macro_f1": 42.48
       },
       "CVQA": {
-        "Acc": 0.37
+        "Acc": 37.44
       },
       "Heron": {
         "LLM": 45.52
@@ -1067,7 +1067,7 @@
         "macro_f1": 64.11
       },
       "CVQA": {
-        "Acc": 0.82
+        "Acc": 82.27
       },
       "Heron": {
         "LLM": 93.7
@@ -1114,7 +1114,7 @@
         "macro_f1": 44.54
       },
       "CVQA": {
-        "Acc": 0.61
+        "Acc": 60.59
       }
     }
   }
diff --git a/scripts/make_leaderboard.py b/scripts/make_leaderboard.py
@@ -104,7 +104,7 @@ def load_evaluation_data(result_dir: str, model: str, task_dirs: list[str]) -> d
                 "mecha-ja",
                 "mmmu",
                 "cc-ocr",
-                "cvqa",
+                "substring-match",
             ]:
                 overall_score = overall_score * 100
             model_results[f"{task_dir}/{metric}"] = overall_score