feat(evaluation): Add decimals parameter to summarize probability and label metrics. Make corresponding CLI tools default to 3 decimals

nmaarnio · nmaarnio · commit f7a626964b55 · 2024-06-05T11:38:19.000+03:00
diff --git a/eis_toolkit/cli.py b/eis_toolkit/cli.py
@@ -3109,7 +3109,7 @@ def summarize_probability_metrics_cli(true_labels: INPUT_FILE_OPTION, probabilit
     (y_prob, y_true), _, _ = read_data_for_evaluation([probabilities, true_labels])
     typer.echo("Progress: 25%")
 
-    results_dict = summarize_probability_metrics(y_true=y_true, y_prob=y_prob)
+    results_dict = summarize_probability_metrics(y_true=y_true, y_prob=y_prob, decimals=3)
 
     typer.echo("Progress: 75%")
 
@@ -3135,7 +3135,7 @@ def summarize_label_metrics_binary_cli(true_labels: INPUT_FILE_OPTION, predictio
     (y_pred, y_true), _, _ = read_data_for_evaluation([predictions, true_labels])
     typer.echo("Progress: 25%")
 
-    results_dict = summarize_label_metrics_binary(y_true=y_true, y_pred=y_pred)
+    results_dict = summarize_label_metrics_binary(y_true=y_true, y_pred=y_pred, decimals=3)
     typer.echo("Progress: 75%")
 
     typer.echo("Progress: 100% \n")
diff --git a/eis_toolkit/evaluation/classification_label_evaluation.py b/eis_toolkit/evaluation/classification_label_evaluation.py
@@ -1,11 +1,15 @@
 from numbers import Number
-from typing import Dict
 
 import numpy as np
+from beartype.typing import Dict, Optional
 from sklearn.metrics import accuracy_score, confusion_matrix, precision_recall_fscore_support
 
 
-def summarize_label_metrics_binary(y_true: np.ndarray, y_pred: np.ndarray) -> Dict[str, Number]:
+def summarize_label_metrics_binary(
+    y_true: np.ndarray,
+    y_pred: np.ndarray,
+    decimals: Optional[int] = None,
+) -> Dict[str, Number]:
     """
     Generate a comprehensive report of various evaluation metrics for binary classification results.
 
@@ -15,18 +19,21 @@ def summarize_label_metrics_binary(y_true: np.ndarray, y_pred: np.ndarray) -> Di
     Args:
         y_true: True labels.
         y_pred: Predicted labels. The array should come from a binary classifier.
+        decimals: Number of decimals used in rounding the scores. If None, scores are not rounded.
+            Defaults to None.
 
     Returns:
         A dictionary containing the evaluated metrics.
     """
     metrics = {}
 
-    metrics["Accuracy"] = accuracy_score(y_true, y_pred)
+    accuracy = accuracy_score(y_true, y_pred)
+    metrics["Accuracy"] = round(accuracy, decimals) if decimals is not None else accuracy
 
     precision, recall, f1, _ = precision_recall_fscore_support(y_true, y_pred, average="binary")
-    metrics["Precision"] = precision
-    metrics["Recall"] = recall
-    metrics["F1_score"] = f1
+    metrics["Precision"] = round(precision, decimals) if decimals is not None else precision
+    metrics["Recall"] = round(recall, decimals) if decimals is not None else recall
+    metrics["F1_score"] = round(f1, decimals) if decimals is not None else f1
 
     tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
     metrics["True_negatives"] = tn
diff --git a/eis_toolkit/evaluation/classification_probability_evaluation.py b/eis_toolkit/evaluation/classification_probability_evaluation.py
@@ -1,9 +1,7 @@
-from typing import Dict
-
 import matplotlib.pyplot as plt
 import numpy as np
 import seaborn as sns
-from beartype.typing import Optional
+from beartype.typing import Dict, Optional
 from sklearn.calibration import CalibrationDisplay
 from sklearn.metrics import (
     DetCurveDisplay,
@@ -16,7 +14,11 @@
 )
 
 
-def summarize_probability_metrics(y_true: np.ndarray, y_prob: np.ndarray) -> Dict[str, float]:
+def summarize_probability_metrics(
+    y_true: np.ndarray,
+    y_prob: np.ndarray,
+    decimals: Optional[int] = None,
+) -> Dict[str, float]:
     """
     Generate a comprehensive report of various evaluation metrics for classification probabilities.
 
@@ -26,6 +28,8 @@ def summarize_probability_metrics(y_true: np.ndarray, y_prob: np.ndarray) -> Dic
         y_true: True labels.
         y_prob: Predicted probabilities for the positive class. The array should come from
             a binary classifier.
+        decimals: Number of decimals used in rounding the scores. If None, scores are not rounded.
+            Defaults to None.
 
     Returns:
         A dictionary containing the evaluated metrics.
@@ -37,6 +41,9 @@ def summarize_probability_metrics(y_true: np.ndarray, y_prob: np.ndarray) -> Dic
     metrics["average_precision"] = average_precision_score(y_true, y_prob)
     metrics["brier_score_loss"] = brier_score_loss(y_true, y_prob)
 
+    for key, value in metrics.items():
+        metrics[key] = round(value, decimals) if decimals is not None else value
+
     return metrics