如何编码高基数特征?

问题描述

我有一个数据集,在单个特征中包含超过 1500 多个类别。如何编码这些特征?我尝试使用目标编码,但在训练和测试数据集中存在类别不匹配。例如在训练数据集中有 A,B,C 类别的特征 X 而在测试数据集中有 A,D,F 类别的特征 X ?

如何处理类别不匹配和编码具有高基数的类别变量?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)