如何使用 TfIdfVectorizer 查找重要单词?

问题描述

考虑下面的例子。代表文件的重要词是“Bob”和“Sara”。但是使用 max_features,输出往往会显示频繁的单词。当语料库很大时,这会变得更糟。怎么才能只得到重要的词?

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd


corpus = [
    'hi,my name is Bob.','hi,my name is Sara.'
]

vectorizer = TfidfVectorizer(max_features=2)
X = vectorizer.fit_transform(corpus).todense()


df = pd.DataFrame(X,columns=vectorizer.get_feature_names())

输出:

,hi,is
0,0.7071067811865475,0.7071067811865475
1,0.7071067811865475

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)