问题描述
我目前正在处理目标变量高度不平衡的数据集[0,1] = [95%,5%]。我想在这里使用catboost的唯一主要原因是要处理大量非常重要的分类功能。我的问题如下:
-
如何用catboost分类器处理这种巨大的不平衡。到目前为止,我正在使用以下代码。我可以进行哪些更改,以使整个模型足够有效以产生良好的结果?
#this is for catboost algo best_params = {'depth': 5,'iterations': 1000,'learning_rate': 0.01,'random_strength': 0.8,'random_seed':1,'cat_features':categorical_features_indices,'eval_metric':'AUC','verbose':200} model = catboostClassifier(**best_params) model.fit( X_train,y_train,eval_set=(X_test,y_test),use_best_model=False,plot=True )
-
在进行测试和训练拆分之前,向数据添加随机性,然后使用catboost分类器处理拆分是否有影响?如果删除它,则算法运行良好,但是如果添加随机性,则会出现以下错误。只是在这里给出一个想法,所有的特征都被编码,除了那些属于分类特征的特征应由catboost本身通过categorical_feature_indices评估
catboostError: Bad value for num_feature[non_default_doc_idx=0,feature_idx=3]="Eng/Tech": Cannot convert 'b'Eng/Tech'' to float
为什么会这样?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)