用Java集群大数据集

我的应用程序每天从受监视的应用程序中收集100万个日志/错误事件样本。我的数据点每个都有10个属性，我需要对这些样本进行聚类以发现受监视应用程序中的异常和异常行为。但是，对1m个样本进行聚类似乎是一项艰巨的任务。我之所以使用DBSCAN，是因为我的数据中有要消除的噪声，而且我不知道数据集中的簇数。

我尝试了带索引和不带索引的SPMF和ELKI。以下是我的16GB Windows笔记本电脑的测试结果。（它将在生产中使用ubuntu，但我仍在研究将在生产中使用的硬件。可能是AWS CR1实例。）

SPMF的DBSCAN带有-Xmx11g标志的内存不足，即使对于50K数据集也是如此。 ELKI比SPMF更好。 ELKI的不带索引的DBSCAN大约需要26分钟，而带索引的大约需要10分钟来群集100k数据集。

因此，对于我的100万样本量而言，这些结果看起来并不令人鼓舞。我将如何加速群集？ Mahout / Hadoop是解决方案吗？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）