在scikit-learn中组合特征提取类

问题描述

最近,这已在scikit-learn的master分支中以以下名称实现FeatureUnion

http://scikit-learn.org/dev/modules/pipeline.html#feature- union

解决方法

sklearn.pipeline.Pipeline用来链接特征提取器和分类器。有没有一种方法可以sklearn.feature_selection.text并行组合多个要素选择类(例如来自的要素选择类)并加入其输出?

我的代码现在如下所示:

pipeline = Pipeline([
    ('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('clf',SGDClassifier())])

结果如下:

vect -> tfidf -> clf

我希望能够指定如下所示的管道:

vect1 -> tfidf1 \
                 -> clf
vect2 -> tfidf2 /