问题描述
请帮助我处理数据集中的重复数据,因为唯一付款可能没有唯一的客户。
详细信息。 我想通过python3 / xgboost计算付款数据集,如下所示:
payment_id payment_sum client_id client_age client_region
1 35 1 **22** **London**
2 55 1 **22** **London**
3 65 1 **22** **London**
4 110 1 **22** **London**
5 50 2 25 Moscow
理想的结果是对每次付款的预测。
所有付款功能(例如payment_sum)具有唯一值。 我想加入有关付款的客户(例如client_age,client_region)的付款信息。
问题是1个客户可以进行100次付款。这将导致100次重复客户功能(在上表中以**突出显示)。
正常吗? 有一些统计方法可以解决这个问题吗?
谢谢。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)