从数据框列创建数组对象以获取knn算法

问题描述

所以我正在看Tim机器学习教程系列中的技​​术,我看到他手动创建了这样的数组对象:

buying = le.fit_transform(list(df["buying"]))
maint = le.fit_transform(list(df["maint"]))
door = le.fit_transform(list(df["door"]))
persons = le.fit_transform(list(df["persons"]))
lug_boot = le.fit_transform(list(df["lug_boot"]))
safety = le.fit_transform(list(df["safety"]))
cls = le.fit_transform(list(df["class"]))

X = list(zip(buying,maint,door,persons,lug_boot,safety))  # features
y = list(cls)  # labels
X_train,X_test,y_train,y_test = sklearn.model_selection.train_test_split(X,y,test_size = 0.1)

如果我可以通过for循环创建一个函数自动执行此操作,我会感到很懒惰和好奇 并且我尝试制作字典,但是后来我无法正确检索值,等等,而最终我得到了错误的X输出,因为它返回了np.arrays列表?而不是元组列表。

我的代码

feature_values = []
def labelColumns (data):
    for col in range(len(df.columns)):
        feature_values.append(le.fit_transform(list(df[f'{df.columns[col]}'])))
        print(feature_values[col])
labelColumns(df)
#features_dict = dict(zip(list(df.columns),feature_values))
#cls = features_dict.pop('class')
X = list(zip(feature_values[:len(feature_values) - 1]))
y = feature_values[-1]

现在我最终还是不对字典做任何事情,但现在将其留在代码中。 因此,我知道应用train_test_split的X长度是完全错误的,但是我似乎无法弄清楚如何正确执行此操作,并且在很长一段时间内都被卡住了,我现在不想在不弄清楚它的情况下就放手最快的方法。因为那时我无法想象在未来的算法中使用超过8种算法

X_train,test_size = 0.1)

返回:

ValueError: Found input variables with inconsistent numbers of samples: [6,1728]

如果您很友好,请解释一下我在做错什么,以及在我现在脑海中浮现出来时应该如何处理

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)