SequentialFeatureSelector中的“ ci_bound”是什么意思?

问题描述

我正在在线学习其中一本有关使用boston数据集进行逐步回归的教程。代码没有错,但是我只想了解我所看到的。所以我在下面进行了前向选择:

sfs = SFS(LinearRegression(),k_features=(3,11),forward=True,floating=False,scoring='neg_mean_squared_error',cv=4)
sfs.fit(X,y)

之后,我将可视化显示DataFrame中的数据,如下所示:

pd.DataFrame.from_dict(sfs.get_metric_dict()).T

这给了我:

visualising data in DataFrame

ci_bound列中的值是什么意思?

解决方法

您似乎正在使用mlxtend的SequentialFeatureSelector。该系列算法的作用是添加或删除功能,并分析它们对算法指标的影响。如文档中所述,ci_bound给您confidence interval around the computed cross-validation scores。默认情况下,使用95%置信区间,但您可以使用confidence_interval将其设置为另一个值。

大概是通过重复交叉验证K次(K-Fold cross validation)来获得置信区间。因此,您在结果数据框中看到的是根据给定特征子集进行估算得出的得分以及与这些得分相关的置信区间。