问题描述
所以我正在看Tim机器学习教程系列中的技术,我看到他手动创建了这样的数组对象:
buying = le.fit_transform(list(df["buying"]))
maint = le.fit_transform(list(df["maint"]))
door = le.fit_transform(list(df["door"]))
persons = le.fit_transform(list(df["persons"]))
lug_boot = le.fit_transform(list(df["lug_boot"]))
safety = le.fit_transform(list(df["safety"]))
cls = le.fit_transform(list(df["class"]))
X = list(zip(buying,maint,door,persons,lug_boot,safety)) # features
y = list(cls) # labels
X_train,X_test,y_train,y_test = sklearn.model_selection.train_test_split(X,y,test_size = 0.1)
如果我可以通过for循环创建一个函数来自动执行此操作,我会感到很懒惰和好奇 并且我尝试制作字典,但是后来我无法正确检索值,等等,而最终我得到了错误的X输出,因为它返回了np.arrays列表?而不是元组列表。
我的代码:
feature_values = []
def labelColumns (data):
for col in range(len(df.columns)):
feature_values.append(le.fit_transform(list(df[f'{df.columns[col]}'])))
print(feature_values[col])
labelColumns(df)
#features_dict = dict(zip(list(df.columns),feature_values))
#cls = features_dict.pop('class')
X = list(zip(feature_values[:len(feature_values) - 1]))
y = feature_values[-1]
现在我最终还是不对字典做任何事情,但现在将其留在代码中。 因此,我知道应用train_test_split的X长度是完全错误的,但是我似乎无法弄清楚如何正确执行此操作,并且在很长一段时间内都被卡住了,我现在不想在不弄清楚它的情况下就放手最快的方法。因为那时我无法想象在未来的算法中使用超过8种算法
X_train,test_size = 0.1)
返回:
ValueError: Found input variables with inconsistent numbers of samples: [6,1728]
如果您很友好,请解释一下我在做错什么,以及在我现在脑海中浮现出来时应该如何处理
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)