Merge pull request #214 from automl/development

mfeurer · web-flow · commit 5c12496f5040 · 2016-12-20T17:43:10.000+01:00
Release of auto-sklearn 0.1.2
diff --git a/.travis.yml b/.travis.yml
@@ -53,6 +53,8 @@ before_install:
   - conda install --yes gcc
   - echo "Using GCC at "`which gcc`
   - export CC=`which gcc`
+  # Fixes version `GLIBCXX_3.4.21' not found (on Ubuntu 16.04)
+  - conda install --yes libgcc
 
 install:
   - pip install coverage pep8 python-coveralls
diff --git a/autosklearn/__init__.py b/autosklearn/__init__.py
@@ -1,14 +1,15 @@
 # -*- encoding: utf-8 -*-
 from autosklearn.util import dependencies
+from autosklearn.__version__ import __version__
 
-__version__ = '0.1.1'
 
 __MANDATORY_PACKAGES__ = '''
 scikit-learn==0.17.1
-smac==0.2.1
+smac==0.2.2
 lockfile>=0.10
 ConfigSpace>=0.2.1
 pyrfr==0.2.0
+xgboost==0.4a30
 '''
 
 dependencies.verify_packages(__MANDATORY_PACKAGES__)
diff --git a/autosklearn/__version__.py b/autosklearn/__version__.py
@@ -0,0 +1,4 @@
+"""Version information."""
+
+# The following line *must* be the last in the module, exactly as formatted:
+__version__ = "0.1.2"
diff --git a/autosklearn/evaluation/__init__.py b/autosklearn/evaluation/__init__.py
@@ -16,7 +16,7 @@
 from .test_evaluator import *
 from .util import *
 
-WORST_POSSIBLE_RESULT = 2.0
+WORST_POSSIBLE_RESULT = 1.0
 
 
 class ExecuteTaFuncWithQueue(AbstractTAFunc):
diff --git a/autosklearn/evaluation/test_evaluator.py b/autosklearn/evaluation/test_evaluator.py
@@ -13,13 +13,13 @@
 
 class TestEvaluator(AbstractEvaluator):
 
-    def __init__(self, Datamanager, output_dir,
+    def __init__(self, Datamanager, backend,
                  configuration=None,
                  with_predictions=False,
                  all_scoring_functions=False,
                  seed=1):
         super(TestEvaluator, self).__init__(
-            Datamanager, output_dir, configuration,
+            Datamanager, backend, configuration,
             with_predictions=with_predictions,
             all_scoring_functions=all_scoring_functions,
             seed=seed,
@@ -71,16 +71,19 @@ def predict_and_loss(self, train=False):
 
 # create closure for evaluating an algorithm
 # Has a stupid name so nosetests doesn't regard it as a test
-def eval_t(queue, config, data, tmp_dir, seed, num_run, subsample,
+def eval_t(queue, config, data, backend, seed, num_run, subsample,
            with_predictions, all_scoring_functions,
            output_y_test):
-    evaluator = TestEvaluator(data, tmp_dir, config,
-                              seed=seed, with_predictions=with_predictions,
+    evaluator = TestEvaluator(Datamanager=data, configuration=config,
+                              backend=backend, seed=seed,
+                              with_predictions=with_predictions,
                               all_scoring_functions=all_scoring_functions)
 
     loss, opt_pred, valid_pred, test_pred = evaluator.fit_predict_and_loss()
     duration, result, seed, run_info = evaluator.finish_up(
         loss, opt_pred, valid_pred, test_pred, file_output=False)
 
     status = StatusType.SUCCESS
-    queue.put((duration, result, seed, run_info, status))
+    queue.put((duration, result, seed, run_info, status))
+
+
diff --git a/autosklearn/pipeline/components/base.py b/autosklearn/pipeline/components/base.py
@@ -59,7 +59,6 @@ def add_component(self, obj):
                 raise ValueError('Property %s not specified for algorithm %s')
 
         self.components[name] = classifier
-        print(name, classifier)
 
 
 class AutoSklearnClassificationAlgorithm(object):
diff --git a/autosklearn/smbo.py b/autosklearn/smbo.py
@@ -1,4 +1,3 @@
-import functools
 import os
 import time
 import traceback
@@ -508,15 +507,25 @@ def run_smbo(self, max_iters=1000):
             model = RandomForestWithInstances(types,
                                               #instance_features=meta_features_list,
                                               seed=1, num_trees=10)
+            rh2EPM = RunHistory2EPM4Cost(num_params=num_params,
+                                         scenario=self.scenario,
+                                         success_states=[StatusType.SUCCESS,
+                                                         StatusType.MEMOUT,
+                                                         StatusType.TIMEOUT],
+                                         impute_censored_data=False,
+                                         impute_state=None)
             smac = SMAC(scenario=self.scenario,
                         model=model,
                         rng=seed,
+                        runhistory2epm=rh2EPM,
                         tae_runner=ta,
                         runhistory=runhistory)
         elif self.acquisition_function == 'EIPS':
             rh2EPM = RunHistory2EPM4EIPS(num_params=num_params,
                                          scenario=self.scenario,
-                                         success_states=None,
+                                         success_states=[StatusType.SUCCESS,
+                                                         StatusType.MEMOUT,
+                                                         StatusType.TIMEOUT],
                                          impute_censored_data=False,
                                          impute_state=None)
             model = UncorrelatedMultiObjectiveRandomForestWithInstances(
@@ -650,7 +659,7 @@ def choose_next(self, smac):
         self.logger.info('Using %d training points for SMAC.' %
                          X_cfg.shape[0])
         next_configs_tmp = smac.solver.choose_next(
-            X_cfg, Y_cfg, num_interleaved_random=110,
+            X_cfg, Y_cfg,
             num_configurations_by_local_search=10,
             num_configurations_by_random_search_sorted=100)
 
diff --git a/autosklearn/util/dependencies.py b/autosklearn/util/dependencies.py
@@ -1,12 +1,10 @@
-from warnings import warn
-
 import pkg_resources
 import re
-
 from distutils.version import LooseVersion
 
+RE_PATTERN = re.compile(
+    r'^(?P<name>[\w\-]+)((?P<operation>==|>=|>)(?P<version>(\d+)?(\.[a-zA-Z0-9]+)?(\.\d+)?))?$')
 
-RE_PATTERN = re.compile('^(?P<name>[\w\-]+)((?P<operation>==|>=|>)(?P<version>(\d+\.)?(\d+\.)?(\d+)))?$')
 
 
 def verify_packages(packages):
@@ -49,25 +47,27 @@ def _verify_package(name, operation, version):
         check = installed_version > required_version or \
                 installed_version == required_version
     else:
-        raise NotImplementedError('operation \'%s\' is not supported' % operation)
+        raise NotImplementedError(
+            'operation \'%s\' is not supported' % operation)
     if not check:
-        raise IncorrectPackageVersionError(name, installed_version, operation, required_version)
+        raise IncorrectPackageVersionError(name, installed_version, operation,
+                                           required_version)
 
 
 class MissingPackageError(Exception):
-
     error_message = 'mandatory package \'{name}\' not found'
 
     def __init__(self, package_name):
         self.package_name = package_name
-        super(MissingPackageError, self).__init__(self.error_message.format(name=package_name))
+        super(MissingPackageError, self).__init__(
+            self.error_message.format(name=package_name))
 
 
 class IncorrectPackageVersionError(Exception):
-
     error_message = '\'{name} {installed_version}\' version mismatch ({operation}{required_version})'
 
-    def __init__(self, package_name, installed_version, operation, required_version):
+    def __init__(self, package_name, installed_version, operation,
+                 required_version):
         self.package_name = package_name
         self.installed_version = installed_version
         self.operation = operation
diff --git a/example/example_sequential.py b/example/example_sequential.py
@@ -0,0 +1,35 @@
+import sklearn.cross_validation
+import sklearn.datasets
+import sklearn.metrics
+
+import autosklearn.classification
+
+
+def main():
+    digits = sklearn.datasets.load_digits()
+    X = digits.data
+    y = digits.target
+    X_train, X_test, y_train, y_test = \
+        sklearn.cross_validation.train_test_split(X, y, random_state=1)
+
+    automl = autosklearn.classification.AutoSklearnClassifier(
+        time_left_for_this_task=1200, per_run_time_limit=30,
+        tmp_folder='/tmp/autoslearn_sequential_example_tmp',
+        output_folder='/tmp/autosklearn_sequential_example_out',
+        # Do not construct ensembles in parallel to avoid using more than one
+        # core at a time. The ensemble will be constructed after auto-sklearn
+        # finished fitting all machine learning models.
+        ensemble_size=0, delete_tmp_folder_after_terminate=False)
+    automl.fit(X_train, y_train, dataset_name='digits')
+    # This call to fit_ensemble uses all models trained in the previous call
+    # to fit to build an ensemble which can be used with automl.predict()
+    automl.fit_ensemble(y_train, ensemble_size=50)
+
+    print(automl.show_models())
+    predictions = automl.predict(X_test)
+    print(automl.sprint_statistics())
+    print("Accuracy score", sklearn.metrics.accuracy_score(y_test, predictions))
+
+
+if __name__ == '__main__':
+    main()
diff --git a/requirements.txt b/requirements.txt
@@ -22,4 +22,4 @@ xgboost==0.4a30
 ConfigSpace
 pynisher>=0.4
 pyrfr
-smac==0.2.1
+smac==0.2.2
diff --git a/setup.py b/setup.py
@@ -33,9 +33,11 @@
     "ConfigSpace",
     "pynisher>=0.4",
     "pyrfr",
-    "smac==0.2.1"
+    "smac==0.2.2"
 ]
 
+with open("autosklearn/__version__.py") as fh:
+    version = fh.readlines()[-1].split()[-1].strip("\"'")
 
 setuptools.setup(
     name='auto-sklearn',
diff --git a/test/test_automl/test_estimators.py b/test/test_automl/test_estimators.py
@@ -45,7 +45,6 @@ def test_fit(self):
                                        output_folder=output)
         automl.fit(X_train, Y_train)
         score = automl.score(X_test, Y_test)
-        print(automl.show_models())
 
         self.assertGreaterEqual(score, 0.8)
         self.assertEqual(automl._automl._automl._task, MULTICLASS_CLASSIFICATION)
diff --git a/test/test_automl/test_smbo.py b/test/test_automl/test_smbo.py
@@ -33,9 +33,11 @@ def test_choose_next(self):
                                            'empty runhistory',
                                auto.choose_next, smac)
 
+        config = Configuration(configspace, values={'a': 0.1, 'b': 0.2})
+        # TODO make sure the incumbent is always set?
+        smac.solver.incumbent = config
         runhistory = smac.solver.runhistory
-        runhistory.add(config=Configuration(configspace,
-                                            values={'a': 0.1, 'b': 0.2}),
-                       cost=0.5, time=0.5, status=StatusType.SUCCESS)
+        runhistory.add(config=config, cost=0.5, time=0.5,
+                       status=StatusType.SUCCESS)
 
-        auto.choose_next(smac)
+        auto.choose_next(smac)
diff --git a/test/test_evaluation/test_evaluation.py b/test/test_evaluation/test_evaluation.py
@@ -82,7 +82,7 @@ def test_eval_with_limits_holdout_fail_silent(self, pynisher_mock):
                                     logger=self.logger)
         info = ta.run(None, cutoff=30, memory_limit=3000)
         self.assertEqual(info[0], StatusType.CRASHED)
-        self.assertEqual(info[1], 2.0)
+        self.assertEqual(info[1], 1.0)
         self.assertIsInstance(info[2], float)
 
     @unittest.mock.patch('autosklearn.evaluation.eval_holdout')
@@ -93,7 +93,7 @@ def test_eval_with_limits_holdout_fail_memory_error(self, pynisher_mock):
                                     logger=self.logger)
         info = ta.run(None, cutoff=30, memory_limit=3000)
         self.assertEqual(info[0], StatusType.MEMOUT)
-        self.assertEqual(info[1], 2.0)
+        self.assertEqual(info[1], 1.0)
         self.assertIsInstance(info[2], float)
 
     @unittest.mock.patch('autosklearn.evaluation.eval_holdout')
@@ -104,5 +104,5 @@ def test_eval_with_limits_holdout_fail_timeout(self, pynisher_mock):
                                     logger=self.logger)
         info = ta.run(None, cutoff=30, memory_limit=3000)
         self.assertEqual(info[0], StatusType.TIMEOUT)
-        self.assertEqual(info[1], 2.0)
+        self.assertEqual(info[1], 1.0)
         self.assertIsInstance(info[2], float)
diff --git a/test/test_evaluation/test_resampling.py b/test/test_evaluation/test_resampling.py
@@ -99,9 +99,7 @@ def test_split_classification_many_imbalanced_classes(self):
                           4, 5))
             np.random.shuffle(y)
             X_train, X_valid, Y_train, Y_valid = split_data(
-                X, y,
-                classification=True)
-            print(X_train, Y_train)
+                X, y, classification=True)
             self.assertLessEqual(max(Y_valid), 1)
 
 
diff --git a/test/test_evaluation/test_test_evaluator.py b/test/test_evaluation/test_test_evaluator.py
@@ -6,6 +6,7 @@
 import shutil
 import sys
 import unittest
+import unittest.mock
 
 import numpy as np
 
@@ -18,6 +19,7 @@
 # Otherwise nosetests thinks this is a test to run...
 from autosklearn.evaluation import eval_t
 from autosklearn.util.pipeline import get_configuration_space
+from autosklearn.util import Backend
 
 N_TEST_RUNS = 10
 
@@ -70,6 +72,7 @@ def setUp(self):
         self.data = get_multiclass_classification_datamanager()
         self.tmp_dir = os.path.join(os.path.dirname(__file__),
                                     '.test_cv_functions')
+        self.backend = unittest.mock.Mock(spec=Backend)
 
     def tearDown(self):
         try:
@@ -78,16 +81,24 @@ def tearDown(self):
             pass
 
     def test_eval_test(self):
-        eval_t(self.queue, self.configuration, self.data, self.tmp_dir,
-               1, 1, None, True, False, True)
+        eval_t(queue=self.queue,
+               backend=self.backend,
+               config=self.configuration,
+               data=self.data,
+               seed=1, num_run=1, subsample=None, with_predictions=True,
+               all_scoring_functions=False, output_y_test=True)
         info = self.queue.get()
         self.assertAlmostEqual(info[1], 0.041666666666666852)
         self.assertEqual(info[2], 1)
         self.assertNotIn('bac_metric', info[3])
 
     def test_eval_test_all_loss_functions(self):
-        eval_t(self.queue, self.configuration, self.data, self.tmp_dir,
-               1, 1, None, True, True, True)
+        eval_t(queue=self.queue,
+               backend=self.backend,
+               config=self.configuration,
+               data=self.data,
+               seed=1, num_run=1, subsample=None, with_predictions=True,
+               all_scoring_functions=True, output_y_test=True)
         info = self.queue.get()
         self.assertIn('f1_metric: 0.0511508951407;pac_metric: 0.273385527265;'
                       'acc_metric: 0.06;auc_metric: 0.00917546505782;'
diff --git a/test/test_metalearning/test_metalearning.py b/test/test_metalearning/test_metalearning.py
@@ -96,7 +96,5 @@ def test_metalearning(self):
                         configuration_space, dataset_name, metric,
                         task, False, 1, None)
 
-                print(METRIC_TO_STRING[metric])
-                print(initial_configuration_strings_for_smac[0])
                 self.assertTrue(initial_configuration_strings_for_smac[
                                     0].startswith(initial_challengers[metric]))
diff --git a/test/test_pipeline/components/classification/test_decision_tree.py b/test/test_pipeline/components/classification/test_decision_tree.py
@@ -42,7 +42,6 @@ def test_default_configuration_multilabel(self):
         for i in range(10):
             predictions, targets = _test_classifier(
                 DecisionTree, make_multilabel=True)
-            print(predictions, targets)
             self.assertAlmostEqual(0.81108108108108112,
                                    sklearn.metrics.average_precision_score(
                                        targets, predictions))
diff --git a/test/test_pipeline/implementations/test_ProjLogit.py b/test/test_pipeline/implementations/test_ProjLogit.py
@@ -24,8 +24,6 @@ def test_sparse_filtering(self):
 
         model = ProjLogit(max_epochs = 10, verbose = True)
         model.fit(trainx, trainy)
-        print("weights 0:")
-        print(model.w0)
         predicted_prob = model.predict_proba(testx)
         predicted2 = np.argmax(predicted_prob, axis = 1)
         predicted = model.predict(testx)
diff --git a/test/test_pipeline/test_classification.py b/test/test_pipeline/test_classification.py
diff --git a/test/test_pipeline/test_regression.py b/test/test_pipeline/test_regression.py
diff --git a/test/test_util/test_StopWatch.py b/test/test_util/test_StopWatch.py