问题描述
我遇到了一个问题,即我不知道如何在ML模型中使用列表作为标签。基本上我有一个数据框,如下所示:
我的功能集是数字列表,我的标签也是数字列表。如何将一个与另一个关联?我已经使用过二进制标签,但是不能使用非二进制标签进行管理。
ps:我知道我的数据缺乏预处理,出于处理速度的原因,我只加载了很小的一部分
编辑-很抱歉,不清楚:每个数字都是一个单词。我的功能集是文本,我的标签是标题。我正在尝试建立一个模型,该模型根据训练后的模型给出文本,并生成标题
解决方法
您可能想尝试sklearn的p
。看看this post
https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format您应该使用多标签方法来解决问题
,我认为您可以尝试在熊猫“ get_dummies”中内置的OneHotEncoding。
据我了解,您的数据看起来像(此处以“ y”为例)
df
a b y
0 1 2 1
1 4 5 2
2 7 1 3
3 4 7 1
4 6 0 3
5 7 9 2
6 8 1 1
其中y列中的每个数字代表每个类。
所以您可以做的是:
new_y = pd.get_dummies(df['y'],drop_first=True)
It would be very helpful if you post some sample data here and what exactly you are willing to achieve.
PS:除此之外,您还必须使用Categorical_CrossEntropy作为损耗计算。