拥有分类数据时,使用Sklearn随机森林进行特征选择不会给我预期的结果

问题描述

我想使用SKlearn随机森林特征选择功能来了解影响我的自变量(TN污染物浓度)的关键因素是什么。 我有一个类别变量-气候类型,有五种气候类型(高温,干燥,温带,热带和干旱),我知道气候类型对我的自变量有很大影响,但是,当我使用在一种热编码方法(通过pandas get_dummies)中,我发现这些气候类型(在一次热编码后变为具有假/真的五个变量)不是最重要的。

如此处所示,气候变量的特征重要性得分最低:

我的问题是,在处理分类变量时,随机森林的特征选择是否仍然有用?如果我做错了什么?

这是我的代码的一部分:

  model = RandomForestRegressor(n_estimators=100,bootstrap = True,max_features = 'sqrt')

  model.fit(x_train,y_train)

  fi = pd.DataFrame({'feature': list(x_train),'importance': 
  model.feature_importances_}).sort_values('importance',ascending = False)

  plt.bar(fi['feature'],fi['importance'])

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)