结合功能进行文本分类

问题描述

我正在尝试使用RandomForestClassifier进行文本分类。我能够用BOW表示法做到这一点。现在，我想结合多个功能，例如POS标签信息，文档长度和大写字母的出现。我的问题是现在如何在变换后的特征向量中组合这些特征。这是我用于BOW模型并添加tfidf-weights的代码：

    #features = BOW
    #convert text to numbers
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(max_features=1500,min_df=5,max_df=0.3,stop_words=stopwords.words('german'))
    X = vectorizer.fit_transform(documents).toarray()

    #calculate the tfidf
    from sklearn.feature_extraction.text import TfidfTransformer
    tfidfconverter = TfidfTransformer()
    X = tfidfconverter.fit_transform(X).toarray()

现在在哪里以及如何添加其他功能？谢谢您的帮助！

编辑：经过更多研究，我从sklearn找到了DictVectorizer。现在的问题是，我是否可以将不同类型的多个功能（一些代表计数，一些布尔值/ 0或1）组合成一个字典。例如，我的数据可能如下所示：

data = [
{"word1_count" = 1,"word2_count"= 0,"post_length" = 35,"emoji1" = 0},"adv_pos_count" = 4},{"word1_count" = 3,"word2_count"= 1,"post_length" = 80,"emoji1" = 1},"adv_pos_count" = 2}
]

然后在哪里添加标签？

非常感谢您的帮助

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

feature-engineering python text-classification