如何处理数据集中的重复项导致唯一付款可能没有唯一客户

问题描述

请帮助我处理数据集中的重复数据,因为唯一付款可能没有唯一的客户。

详细信息。 我想通过python3 / xgboost计算付款数据集,如下所示:

payment_id  payment_sum client_id client_age    client_region
1           35          1         **22**        **London**
2           55          1         **22**        **London**
3           65          1         **22**        **London**
4           110         1         **22**        **London**
5           50          2         25            Moscow

理想的结果是对每次付款的预测。

所有付款功能(例如payment_sum)具有唯一值。 我想加入有关付款的客户(例如client_age,client_region)的付款信息。

问题是1个客户可以进行100次付款。这将导致100次重复客户功能(在上表中以**突出显示)。

正常吗? 有一些统计方法可以解决这个问题吗?

谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)