来自多台计算机的时间序列聚类?

问题描述

我有一个时间序列,并且从多台机器上收集了近两年的数据。每台机器每周记录一个样本。例如,对于一台机器,一个月中有4个样本,因此一年中有48个样本(4 * 12),依此类推。这些数据是累积的,这意味着每周一项度量(一项功能)的价值会增加。在此数据集中,有2000台唯一的计算机,每台计算机通过不同的传感器记录了近500个特征。数据如下所示:

          date        f1        f2        f3
 m0    2016-01-01     2.3       0.3       13.2
 m0    2016-01-08     2.8       0.34      21.4
 m0    2016-01-15     3.0       1.3       22.5
 m1    2016-01-01     0.47      1.7       4.9
 m1    2016-01-08     1.2       1.9       5.5
 m1    2016-01-15     1.73      2.3       6.5
    ...       ...       ...       ...
 m1295 2017-07-01     23.7     1.01       1.24
 m1295 2017-07-08     34.0     2.20       4.05 
 m1295 2017-07-15     34.12    3.65       4.29

我想对这些机器在不同季节(春季,夏季,秋季和冬季)的使用情况进行分类。我还想比较四个季节中这些集群的相似性和差异性。基本上,我打算对一段时间内机器的使用情况以及它们从一个季节到另一个季节的变化进行建模。我已完成的步骤如下:

  1. 从数据集中选择信息最丰富的功能(在我的情况下,我选择了30个最重要的功能),
  2. 根据记录的数据将计算机划分为四个季节。意思是,在每个季节,我们都有该时期内记录的数据,例如,春季,数据从“ 2016-03-01”到“ 2016-05-31”,
  3. 将数据标准化为0到1
  4. 应用k均值算法并计算Silhouette得分以找到最佳数目的聚类。在这种情况下,我发现前两个季节有3个类群,而秋季和冬季有2个类群。
  5. 然后,我尝试使用箱形图比较每个季节的聚类和使用统计显着性检验比较每个聚类中的种群。.

我的问题是,对此类数据进行聚类的最佳方法是什么?以及我对这种类型的数据进行聚类和比较聚类的方式有意义吗?

如果您有任何更好的聚类时间序列数据的想法,请指导我!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...