number expected.read Token[2015-02-02 14:19:00] weka project

问题描述

希望你们一切都好! 我在数据挖掘课上有一个项目。数据由数值数据组成,许多算法不起作用。我必须这样做:“您应该比较以下分类算法的性能随机森林、C4.5、jrip、贝叶斯网络。必要时使用它们 Weka过滤器为某些属性替换或创建值 新属性。为了进行比较,采用训练/测试百分比拆分类型 训练数据的百分比等于 80%。通过给出带有结果的表格来描述您的观察结果和 展示算法的性能。通过放置重复实验 训练数据的百分比等于 70% 和 50% 呈现结果。" 所以我的第一次尝试是将 weka 中的数据与预处理数据数字转换为名义数据,但我的一个朋友认为这是统计错误。所以我的第二次尝试是使用 excel 将所有数据甚至日期转换为数字,删除第一行(id)并将其传递给weka(我只在日期留下双引号) .但我有标题中提到的错误数据集是https://archive.ics.uci.edu/ml/datasets/Occupancy+Detection+ 谢谢你的时间。

解决方法

如果在 ARFF 文件中将类似日期的数据定义为 DATE attribute(使用正确的格式解析字符串),那么 WEKA 将在内部将其视为数字属性(Java 纪元,即毫秒自 1970-01-01 起)。

如果算法无法处理数字属性,请使用 NumericToNominalsupervised Discretize 过滤器而不是使用 unsupervised

不推荐将名义属性转换为数字属性。相反,请尝试使用 supervised 或无人监督的 NominalToBinary 过滤器。