问题描述
考虑下面的例子。代表文件的重要词是“Bob”和“Sara”。但是使用 max_features
,输出往往会显示频繁的单词。当语料库很大时,这会变得更糟。怎么才能只得到重要的词?
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
corpus = [
'hi,my name is Bob.','hi,my name is Sara.'
]
vectorizer = TfidfVectorizer(max_features=2)
X = vectorizer.fit_transform(corpus).todense()
df = pd.DataFrame(X,columns=vectorizer.get_feature_names())
输出:
,hi,is
0,0.7071067811865475,0.7071067811865475
1,0.7071067811865475
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)