python – 关于k折叠交叉验证的建议

我目前正在使用以下代码执行使用支持向量机分类的dicom图像的交叉验证方法

#Cross Validation using k-folds
    clf = svm.SVC(kernel='linear')
    scores = cross_validation.cross_val_score(clf,X,Y,cv=16))
    print scores
    print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(),scores.std()*2))

正如你所看到的,我目前正在使用16折,我怎样才能找到最好的折叠量?这是更好的情况吗?

此外,我发现在使用交叉验证时,我的准确度得分从66%到100%不等,通常平均准确度为82% – 85%.关于如何改进这个并且可能确保分类器从每个类中挑选相同数量的图像,是否有任何建议?

对不起,我是Python新手!

谢谢你的建议!

解决方法

尝试使用gridsearchcv.例如,我可以创建一个管道,如

pipeline = Pipeline([

    ('clf',LogisticRegression())
    ])

    parameters = {

        'clf__C': (0.1,1,10,20,30)
    }

所以,这里我为我的LogisticRegression()分类器的C参数提供了5个不同的选项,在我的管道中由clf表示

当然,您可以使用SVC代替LogisticRegression().然后

grid_search = gridsearchcv(pipeline,parameters,n_jobs=3,verbose=1,scoring='accuracy')

然后就像是

bestParameters = grid_search.best_estimator_.get_params()
    for param_name in sorted(parameters.keys()):
        print ('\t %s: %r' % (param_name,bestParameters[param_name]))

将为您提供最佳的选项集

相关文章

功能概要:(目前已实现功能)公共展示部分:1.网站首页展示...
大体上把Python中的数据类型分为如下几类: Number(数字) ...
开发之前第一步,就是构造整个的项目结构。这就好比作一幅画...
源码编译方式安装Apache首先下载Apache源码压缩包,地址为ht...
前面说完了此项目的创建及数据模型设计的过程。如果未看过,...
python中常用的写爬虫的库有urllib2、requests,对于大多数比...