结合功能进行文本分类

问题描述

我正在尝试使用RandomForestClassifier进行文本分类。 我能够用BOW表示法做到这一点。现在,我想结合多个功能,例如POS标签信息,文档长度和大写字母的出现。 我的问题是现在如何在变换后的特征向量中组合这些特征。 这是我用于BOW模型并添加tfidf-weights的代码

    #features = BOW
    #convert text to numbers
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(max_features=1500,min_df=5,max_df=0.3,stop_words=stopwords.words('german'))
    X = vectorizer.fit_transform(documents).toarray()

    #calculate the tfidf
    from sklearn.feature_extraction.text import TfidfTransformer
    tfidfconverter = TfidfTransformer()
    X = tfidfconverter.fit_transform(X).toarray()

现在在哪里以及如何添加其他功能?谢谢您的帮助!

编辑:经过更多研究,我从sklearn找到了DictVectorizer。现在的问题是,我是否可以将不同类型的多个功能(一些代表计数,一些布尔值/ 0或1)组合成一个字典。例如,我的数据可能如下所示:

data = [
{"word1_count" = 1,"word2_count"= 0,"post_length" = 35,"emoji1" = 0},"adv_pos_count" = 4},{"word1_count" = 3,"word2_count"= 1,"post_length" = 80,"emoji1" = 1},"adv_pos_count" = 2}
]

然后在哪里添加标签

非常感谢您的帮助

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)