sklearn.linear_model.SGDClassifier.coef_ 字段对特征重要性的意义是什么?

问题描述

我想弄清楚如何解释二进制文本情感 SGD 分类器的权重。分类器在负情绪为 0 和正情绪为 1 上进行训练。

在 API (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html) 中

它说 coef_ 是

"Weights assigned to the features."

训练分类器后,我打印了一些权重:

 print('The first 5 weights: {}'.format(weights_list[0][:5]))

 output->The first 5 weights: [ 0.          0.41863284  0.39982623 -0.23794818 -0.28968943]

这些权重中的每一个都引用一个布尔值,表示样本输入中是否存在单个单词。

例如,如果 0.41863284 指的是“well”这个词的存在。

将它解释为“well”这个词是否有意义,因为它使分类器认为样本是正的。大负权重的相同推理是否意味着该特征与负面情绪相关?

从中你能看出哪些特征具有较大的负权重以查看最负面的词,以及哪些特征具有较大的正权重以查看最正面的词。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)