问题描述
我正在尝试使用RandomForestClassifier
进行文本分类。
我能够用BOW表示法做到这一点。现在,我想结合多个功能,例如POS标签信息,文档长度和大写字母的出现。
我的问题是现在如何在变换后的特征向量中组合这些特征。
这是我用于BOW模型并添加tfidf-weights的代码:
#features = BOW
#convert text to numbers
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=1500,min_df=5,max_df=0.3,stop_words=stopwords.words('german'))
X = vectorizer.fit_transform(documents).toarray()
#calculate the tfidf
from sklearn.feature_extraction.text import TfidfTransformer
tfidfconverter = TfidfTransformer()
X = tfidfconverter.fit_transform(X).toarray()
编辑:经过更多研究,我从sklearn找到了DictVectorizer
。现在的问题是,我是否可以将不同类型的多个功能(一些代表计数,一些布尔值/ 0或1)组合成一个字典。例如,我的数据可能如下所示:
data = [
{"word1_count" = 1,"word2_count"= 0,"post_length" = 35,"emoji1" = 0},"adv_pos_count" = 4},{"word1_count" = 3,"word2_count"= 1,"post_length" = 80,"emoji1" = 1},"adv_pos_count" = 2}
]
非常感谢您的帮助
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)