Change default random seed to None, add shuffle to parameters

nmaarnio · nmaarnio · commit a9d3c6e62c8c · 2023-12-13T09:38:28.000+02:00
diff --git a/eis_toolkit/prediction/gradient_boosting.py b/eis_toolkit/prediction/gradient_boosting.py
@@ -24,7 +24,7 @@ def gradient_boosting_classifier_train(
     max_depth: Optional[int] = 3,
     subsample: Number = 1.0,
     verbose: int = 0,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     **kwargs,
 ) -> Tuple[GradientBoostingClassifier, dict]:
     """
@@ -61,7 +61,7 @@ def gradient_boosting_classifier_train(
             Values must be in the range 0.0 < x <= 1.0. Defaults to 1.0.
         verbose: Specifies if modeling progress and performance should be printed. 0 doesn't print,
             1 prints once in a while depending on the number of tress, 2 or above will print for every tree.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         **kwargs: Additional parameters for Sklearn's GradientBoostingClassifier.
 
     Returns:
@@ -120,7 +120,7 @@ def gradient_boosting_regressor_train(
     max_depth: Optional[int] = 3,
     subsample: Number = 1.0,
     verbose: int = 0,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     **kwargs,
 ) -> Tuple[GradientBoostingRegressor, dict]:
     """
@@ -157,7 +157,7 @@ def gradient_boosting_regressor_train(
             Values must be in the range 0.0 < x <= 1.0. Defaults to 1.
         verbose: Specifies if modeling progress and performance should be printed. 0 doesn't print,
             1 prints once in a while depending on the number of tress, 2 or above will print for every tree.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         **kwargs: Additional parameters for Sklearn's GradientBoostingRegressor.
 
     Returns:
diff --git a/eis_toolkit/prediction/logistic_regression.py b/eis_toolkit/prediction/logistic_regression.py
@@ -20,7 +20,7 @@ def logistic_regression_train(
     max_iter: int = 100,
     solver: Literal["lbfgs", "liblinear", "newton-cg", "newton-cholesky", "sag", "saga"] = "lbfgs",
     verbose: int = 0,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     **kwargs
 ) -> Tuple[LogisticRegression, dict]:
     """
@@ -57,7 +57,7 @@ def logistic_regression_train(
         solver: Algorithm to use in the optimization problem. Defaults to 'lbfgs'.
         verbose: Specifies if modeling progress and performance should be printed. 0 doesn't print,
             values 1 or above will produce prints.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         **kwargs: Additional parameters for Sklearn's LogisticRegression.
 
     Returns:
diff --git a/eis_toolkit/prediction/model_utils.py b/eis_toolkit/prediction/model_utils.py
@@ -59,7 +59,7 @@ def load_model(path: Path) -> BaseEstimator:
 def split_data(
     *data: Union[np.ndarray, pd.DataFrame, sparse._csr.csr_matrix, List[Number]],
     split_size: float = 0.2,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     shuffle: bool = True,
 ) -> List[Union[np.ndarray, pd.DataFrame, sparse._csr.csr_matrix, List[Number]]]:
     """
@@ -75,7 +75,7 @@ def split_data(
         split_size: The proportion of the second part of the split. Typically this is the size of test/validation
             part. The first part will be complemental proportion. For example, if split_size = 0.2, the first part
             will have 80% of the data and the second part 20% of the data. Defaults to 0.2.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         shuffle: If data is shuffled before splitting. Defaults to True.
 
     Returns:
@@ -100,8 +100,6 @@ def test_model(
     """
     Test and score a trained model.
 
-    TODO: Implement for Keras models.
-
     Args:
         X_test: Test data.
         y_test: Target labels for test data.
@@ -157,7 +155,8 @@ def _train_and_validate_sklearn_model(
     metrics: Sequence[Literal["mse", "rmse", "mae", "r2", "accuracy", "precision", "recall", "f1"]],
     split_size: float = 0.2,
     cv_folds: int = 5,
-    random_state: Optional[int] = 42,
+    shuffle: bool = True,
+    random_state: Optional[int] = None,
 ) -> Tuple[BaseEstimator, dict]:
     """
     Train and validate Sklearn model.
@@ -187,7 +186,7 @@ def _train_and_validate_sklearn_model(
     # Approach 2: Validation with splitting data once
     elif validation_method == SPLIT:
         X_train, X_valid, y_train, y_valid = split_data(
-            X, y, split_size=split_size, random_state=random_state, shuffle=True
+            X, y, split_size=split_size, random_state=random_state, shuffle=shuffle
         )
         model.fit(X_train, y_train)
         y_pred = model.predict(X_valid)
@@ -199,7 +198,7 @@ def _train_and_validate_sklearn_model(
 
     # Approach 3: Cross-validation
     elif validation_method in [KFOLD_CV, SKFOLD_CV, LOO_CV]:
-        cv = _get_cross_validator(validation_method, cv_folds, random_state)
+        cv = _get_cross_validator(validation_method, cv_folds, shuffle, random_state)
 
         # Initialize output metrics dictionary
         out_metrics = {}
@@ -284,13 +283,13 @@ def _score_model(
 
 @beartype
 def _get_cross_validator(
-    cv: str, folds: int, random_state: Optional[int]
+    cv: str, folds: int, shuffle: bool, random_state: Optional[int]
 ) -> Union[KFold, StratifiedKFold, LeaveOneOut]:
     """Create and return a Sklearn cross-validator based on given parameter values."""
     if cv == KFOLD_CV:
-        cross_validator = KFold(n_splits=folds, shuffle=True, random_state=random_state)
+        cross_validator = KFold(n_splits=folds, shuffle=shuffle, random_state=random_state)
     elif cv == SKFOLD_CV:
-        cross_validator = StratifiedKFold(n_splits=folds, shuffle=True, random_state=random_state)
+        cross_validator = StratifiedKFold(n_splits=folds, shuffle=shuffle, random_state=random_state)
     elif cv == LOO_CV:
         cross_validator = LeaveOneOut()
     else:
diff --git a/eis_toolkit/prediction/random_forests.py b/eis_toolkit/prediction/random_forests.py
@@ -19,7 +19,7 @@ def random_forest_classifier_train(
     n_estimators: int = 100,
     max_depth: Optional[int] = None,
     verbose: int = 0,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     **kwargs,
 ) -> Tuple[RandomForestClassifier, dict]:
     """
@@ -49,7 +49,7 @@ def random_forest_classifier_train(
             Defaults to None.
         verbose: Specifies if modeling progress and performance should be printed. 0 doesn't print,
             values 1 or above will produce prints.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         **kwargs: Additional parameters for Sklearn's RandomForestClassifier.
 
     Returns:
@@ -94,7 +94,7 @@ def random_forest_regressor_train(
     n_estimators: int = 100,
     max_depth: Optional[int] = None,
     verbose: int = 0,
-    random_state: Optional[int] = 42,
+    random_state: Optional[int] = None,
     **kwargs,
 ) -> Tuple[RandomForestRegressor, dict]:
     """
@@ -124,7 +124,7 @@ def random_forest_regressor_train(
             Defaults to None.
         verbose: Specifies if modeling progress and performance should be printed. 0 doesn't print,
             values 1 or above will produce prints.
-        random_state: Seed for random number generation. Defaults to 42.
+        random_state: Seed for random number generation. Defaults to None.
         **kwargs: Additional parameters for Sklearn's RandomForestRegressor.
 
     Returns:
diff --git a/tests/prediction/model_utils_test.py b/tests/prediction/model_utils_test.py
@@ -103,7 +103,7 @@ def test_binary_classification():
 
 def test_splitting():
     """Test that split data works as expected."""
-    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2)
+    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2, random_state=42)
     np.testing.assert_equal(len(X_train), len(X_IRIS) * 0.8)
     np.testing.assert_equal(len(y_train), len(Y_IRIS) * 0.8)
     np.testing.assert_equal(len(X_test), len(X_IRIS) * 0.2)
@@ -112,7 +112,7 @@ def test_splitting():
 
 def test_test_model_sklearn():
     """Test that test model works as expected with a Sklearn model."""
-    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2)
+    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2, random_state=42)
 
     model, _ = _train_and_validate_sklearn_model(
         X_train, y_train, model=RF_MODEL, validation_method="none", metrics=CLF_METRICS, random_state=42
@@ -124,7 +124,7 @@ def test_test_model_sklearn():
 
 def test_predict_sklearn():
     """Test that predict works as expected with a Sklearn model."""
-    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2)
+    X_train, X_test, y_train, y_test = split_data(X_IRIS, Y_IRIS, split_size=0.2, random_state=42)
 
     model, _ = _train_and_validate_sklearn_model(
         X_train, y_train, model=RF_MODEL, validation_method="none", metrics=CLF_METRICS, random_state=42