Поправлена бага

Hedgehogues · Hedgehogues · commit c2c6f7da96a0 · 2017-10-22T23:53:25.000+03:00
diff --git a/CLOPE.py b/CLOPE.py
diff --git a/README.md b/README.md
@@ -29,10 +29,20 @@
 То окажется, что все объекты будут отнесены к самому большому и единственному кластеру. Таким образом, алгоритм оказывается не инвариантным
 к размеру кластера.
 
+Рассматривая tf (не является векторным пространством, поэтому вводить расстояние некорректно), можно проводить $H(C)$ интерпретировать, как среднее покоординатное расстояние в манхэтенской метрике до начала координат.
+
 
 Описание файлов:
 testMushrooms.py -- пример работы алгоритма на тестовом множестве https://archive.ics.uci.edu/ml/datasets/mushroom
 
+
+!!!!!!!!!!!!!!!!!!
+Качество кластеризации будем оценивать по обозначенному целевому признаку, а также, согласно критериям информативности:
+
+* AIC
+* AMI
+!!!!!!!!!!!!!!!!!!
+
 CLOPE.py -- реализация алгоритма
 
 testNoiseVk.py -- тестирование шумов на дополнительную кластеризуемость
diff --git a/data/access.log b/data/access.log
diff --git a/logs_clustering.py b/logs_clustering.py
@@ -0,0 +1,49 @@
+import numpy as np
+import CLOPE
+
+
+f = open('data/access.log', 'r')
+log = [item for item in f.readlines()]
+
+# 207 уникальных ip
+# Все таймзоны одинаковые
+# Дни месяцев брать не будем
+
+date = np.array([item.split()[3][1:].split('/') for item in log])
+
+ip = [item.split()[0] + '_0' for item in log]
+month = [month + '_1' for month in date[:, 1]]
+year = [item.split(':')[0] + '_2' for item in date[:, 2]]
+hour = [item.split(':')[1] + '_3' for item in date[:, 2]]
+type_of_query = [item.split()[5] + '_4' for item in log]
+proto = [item.split()[7] + '_5' for item in log]
+code = [item.split()[8] + '_6' for item in log]
+browse = [item.split()[11] + '_7' for item in log]
+path = [[path for path in item.split()[6].split('/') if len(path) != 0] for item in log]
+
+# trasactions = {i: transact for i, transact in enumerate(np.transpose(np.vstack([ip, month, year, hour, type_of_query, proto, code, browse])))}
+trasactions = {i: transact for i, transact in enumerate(np.transpose(path))}
+
+noiseLimit = 0
+seed = 41
+r = 1.4
+clope = CLOPE.CLOPE(print_step=5000, is_save_history=True, random_seed=seed)
+clope.init_clusters(trasactions, r, noiseLimit)
+clope.print_history_count(r, seed)
+
+while clope.next_step(trasactions, r, noiseLimit) > 0:
+    clope.print_history_count(r, seed)
+
+
+
+count = 0
+cl = []
+for transact_ind in clope.transaction:
+    cluster = clope.transaction[transact_ind]
+    if cluster == 6:
+        cl.append(trasactions[transact_ind])
+        count += 1
+    if count > 20:
+        break
+
+print(cl)
diff --git a/testMushrooms.py b/testMushrooms.py
@@ -1,45 +1,55 @@
 # -*- coding: utf-8 -*-
 import CLOPE
 import numpy
+import pandas as pd
+
+
+def get_count_clusters(data, clope):
+    # Выводим распределение по кластерам съедобных и несъедобных грибов
+    answ = []
+    for item in range(0, clope.max_cluster_number):
+        answ.append({'e': 0, 'p': 0})
+    for itemTransact in clope.transaction:
+        cluster = clope.transaction[itemTransact]
+        if data[itemTransact][0] == 'e':
+            answ[cluster]['e'] += 1
+        else:
+            answ[cluster]['p'] += 1
+
+    return pd.DataFrame(answ)
 
 
 # Прочитываем данные
-f = open ('data/agaricus-lepiota.data.txt', 'r')
+f = open('data/agaricus-lepiota.data.txt', 'r')
 # Разделяем данные
 mushroomsStart = [item.replace('\n', '').split(',') for item in f.readlines()]
-numpy.random.seed(42)
+seed = 40
+numpy.random.seed(seed)
 numpy.random.shuffle(mushroomsStart)
 mushrooms = {}
 for exampleIndex in range(0, len(mushroomsStart)):
-   for index in range(0, len(mushroomsStart[exampleIndex])):
-       # Первый столбец -- признак (съедобные (e) или нет(p)). Данный столбец является целым классом. По этому столбцу
-       # проверяется качество тестирования
-       if index != 0:
-           mushrooms[exampleIndex][index - 1] = mushroomsStart[exampleIndex][index] + str(index)
-       else:
-           mushrooms[exampleIndex] = [''] * 22
-
-clope = CLOPE.Clope(print_step=1000, is_save_history=True)
+    for index in range(0, len(mushroomsStart[exampleIndex])):
+        # Первый столбец -- признак (съедобные (e) или нет(p)). Данный столбец является целым классом. По этому столбцу
+        # проверяется качество тестирования
+        if index != 0:
+            if mushroomsStart[exampleIndex][index] != '?':
+                mushrooms[exampleIndex][index - 1] = mushroomsStart[exampleIndex][index] + str(index)
+            else:
+                print('miss object')
+        else:
+            mushrooms[exampleIndex] = [''] * 22
+
+
+clope = CLOPE.CLOPE(print_step=1000, is_save_history=True, random_seed=seed)
 # Начальные данные
-iter = 1000
 repulsion = 3
-isSaveHist = True
 noiseLimit = 0
 # Инициализируем алгоритм
-clope.init(mushrooms, repulsion, noiseLimit)
-clope.print_history_count()
+clope.init_clusters(mushrooms, repulsion, noiseLimit)
+df = get_count_clusters(clope)
+clope.print_history_count(repulsion, seed)
 # Итерируемся
 while clope.next_step(mushrooms, repulsion, noiseLimit) > 0:
-    clope.print_history_count()
-
-# Выводим распределение по кластерам съедобных и несъедобных грибов
-answ = []
-for item in range(0, clope.max_cluster_number):
-    answ.append({'e': 0, 'p': 0})
-for itemTransact in clope.transaction:
-    cluster = clope.transaction[itemTransact]
-    if mushroomsStart[itemTransact][0] == 'e':
-        answ[cluster]['e'] += 1
-    else:
-        answ[cluster]['p'] += 1
-print(answ)
+    clope.print_history_count(repulsion, seed)
+
+get_count_clusters(mushroomsStart, clope)
diff --git a/testNoiseVk.py b/testNoiseVk.py
@@ -27,8 +27,8 @@
 
 # Выполнение алгоритма для шумовых кластеров
 stopLimit = 0
-clopeNoise = CLOPE.Clope()
-clopeNoise.init(noiseTransaction, iter, repulsion, isSaveHistory, noiseLimit)
+clopeNoise = CLOPE.CLOPE()
+clopeNoise.init_clusters(noiseTransaction, iter, repulsion, isSaveHistory, noiseLimit)
 print("Инициализация завершена. Число кластеров: ", len(clopeNoise.clusters), ". Число шумовых кластеров при базовой кластеризации: ", len(clope.NoiseClusters))
 while countTransfer > stopLimit:
     countTransfer = clopeNoise.next_step(noiseTransaction, iter, repulsion, isSaveHistory, noiseLimit)
diff --git a/testUralsib.py b/testUralsib.py
@@ -1,46 +1,23 @@
 # -*- coding: utf-8 -*-
 import CLOPE
 import json
+import matplotlib.pyplot as plt
 
 # Прочитываем данные
 with open('data/clope_features.json', 'r') as f:
     clients = json.load(f)
 
-clope = CLOPE.Clope()
 # Начальные данные
-iter = 1000
-repulsion = 2.3
-isSaveHist = True
-noiseLimit = 0
-max_count_clusters = 40
+repulsion = 2
+is_save_hist = True
+noise_limit = 0
+max_count_clusters = None
 random_state = 42
-# Инициализируем алгоритм
-clope.init(clients, iter, repulsion, isSaveHist, noiseLimit, max_count_clusters, random_state)
-clope.print_history_count()
-# Итерируемся
-# while clope.NextStep(clients, iter, 2, isSaveHist, 5000, max_count_clusters, random_state) > 0:
-#    clope.PrintHistoryCount()
 
-# Выводим распределение по кластерам съедобных и несъедобных грибов
-clusters = {}
-for itemTransact in clope.transaction:
-    cl_num = clope.transaction[itemTransact]
-    if not cl_num in clusters:
-        clusters[cl_num] = []
-    clusters[cl_num].append(itemTransact)
-
-with open('data/clusters.json', 'w') as f:
-    json.dump(clusters, f)
-clope.init(clients, iter, 10, isSaveHist, noiseLimit, max_count_clusters, random_state)
+clope = CLOPE.CLOPE(print_step=5000, is_save_history=True)
+# Инициализируем алгоритм
+clope.init_clusters(clients, repulsion, noise_limit)
 clope.print_history_count()
 # Итерируемся
-while clope.next_step(clients, iter, 2, isSaveHist, 5000, max_count_clusters, random_state) > 0:
-    clope.print_history_count()
-
-# Выводим распределение по кластерам съедобных и несъедобных грибов
-answ = []
-for item in range(0, len(clope.clusters)):
-    answ.append({'e': 0, 'p': 0})
-for itemTransact in clope.transaction:
-    classter = clope.transaction[itemTransact]
-print(answ)
+while clope.next_step(clients, repulsion, 500) > 0:
+   clope.print_history_count()
diff --git a/testVk.py b/testVk.py
@@ -4,8 +4,6 @@
 import CLOPE
 import pickle
 
-
-
 with open('data/users.pickle', 'rb') as f:
     dataGroups = pickle.load(f)
 
@@ -21,19 +19,18 @@
 dataGroups = copy.deepcopy(dataNew)
 
 # Инициализация параметров алгоритма
-repulsion = 1.0015
-noiseLimit = -1
-isSaveHistory = False
-iter = 10000
+repulsion = 1.1
+noiseLimit = 0
 countTransfer = 1000000
 stopLimit = 300
 
 # Выполнение алгоритма
-clope = CLOPE.Clope()
-clope.init(dataGroups, iter, repulsion, isSaveHistory, noiseLimit)
+print('Start')
+clope = CLOPE.CLOPE()
+clope.init_clusters(dataGroups, repulsion, noiseLimit)
 print("Инициализация завершена. Число кластеров: ", len(clope.clusters))
 while countTransfer > stopLimit:
-    countTransfer = clope.next_step(dataGroups, iter, repulsion, isSaveHistory, noiseLimit)
+    countTransfer = clope.next_step(dataGroups, repulsion, noiseLimit)
     print("Число перемещений между кластерами", countTransfer, ". Число кластеров: ", len(clope.clusters))
 
 with open('data/CLOPE_users' + '.r=' + str(repulsion) + '.stopLimit=' + str(stopLimit) + '.pickle', 'wb') as f:
diff --git a/testVkDynamicRepulsion.py b/testVkDynamicRepulsion.py
@@ -29,8 +29,8 @@
 stopLimit = 300
 
 # Выполнение алгоритма
-clope = CLOPE.Clope()
-clope.init(dataGroups, iter, repulsion, isSaveHistory, noiseLimit)
+clope = CLOPE.CLOPE()
+clope.init_clusters(dataGroups, iter, repulsion, isSaveHistory, noiseLimit)
 print("Инициализация завершена. Число кластеров: ", len(clope.clusters))
 for iteration in range(0, 10):
     print("Iteration: ", iteration)