如何从要素列表 (TfidfVectorizer) 中删除要素?

问题描述

目前我正在开发一个文本分类程序。我用 TfidfVectorizer 引出了一些功能。 现在,我想从原始特征列表中删除一些单词,因为它们没有提供有用的信息。

我有两个问题:

  1. 特征存储在哪里? (通过 .get_feature_names() 或在 X_train_union_tfidf 中?)
  2. 如何删除它们?

在这里发现了一个非常相似的问题:Ignore a column while building a model with SKLearn 但我无法将其与我的问题联系起来。

代码

X_train_union_tfidf = combined_tfidf.fit_transform(X_train) 
X_test_union_tfidf  = combined_tfidf.transform(X_test)
print(feature_union_df_tfidf)


unigram__compris             15.844468
unigram__devic               16.797861
bigram__speech recognit      17.065831
bigram__invent relat         17.527465
bigram__present invent       21.158065

假设我想删除发明关系和当前发明。在将其传递给分类算法之前,如何将其从 X_train_union_tfidf(稀疏矩阵)中删除

naive_bayes = MultinomialNB()

naive_bayes.fit(X_train_union_tfidf,y_train)                                                            
predictions_NB_tfidf = naive_bayes.predict(X_test_union_tfidf) 
predicted_prob_NB_tf = naive_bayes.predict_proba(X_test_union_tfidf)                                             

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)