问题描述
目前我正在开发一个文本分类程序。我用 TfidfVectorizer 引出了一些功能。 现在,我想从原始特征列表中删除一些单词,因为它们没有提供有用的信息。
我有两个问题:
- 特征存储在哪里? (通过 .get_feature_names() 或在 X_train_union_tfidf 中?)
- 如何删除它们?
我在这里发现了一个非常相似的问题:Ignore a column while building a model with SKLearn 但我无法将其与我的问题联系起来。
代码:
X_train_union_tfidf = combined_tfidf.fit_transform(X_train)
X_test_union_tfidf = combined_tfidf.transform(X_test)
print(feature_union_df_tfidf)
unigram__compris 15.844468
unigram__devic 16.797861
bigram__speech recognit 17.065831
bigram__invent relat 17.527465
bigram__present invent 21.158065
假设我想删除发明关系和当前发明。在将其传递给分类算法之前,如何将其从 X_train_union_tfidf(稀疏矩阵)中删除?
naive_bayes = MultinomialNB()
naive_bayes.fit(X_train_union_tfidf,y_train)
predictions_NB_tfidf = naive_bayes.predict(X_test_union_tfidf)
predicted_prob_NB_tf = naive_bayes.predict_proba(X_test_union_tfidf)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)