问题描述
我实际上是在尝试解决 vidya 最近的 Hackathon LTFS(Bank Data) 分析问题,但在那里我遇到了一些独特的问题,实际上并不是太独特。解释一下
Problem
Bureau 数据集中的几列名为
REPORTED DATE - HIST
、CUR BAL - HIST
、AMT OVERDUE
- HIST & AMT PAID - HIST
由空值,
或一行多个值组成,而且每一行的值个数不相同
这是数据集的一部分(不是original data,因为行大小很大)
**Requested Date - Hist**
20180430,20180331,20191231,20191130,20191031,20190930,20190831,20190731,20190630,20190531,20190430,20190331,20121031,20120930,20120831,20120731,20120630,20120531,20120430,----------------x-----------2nd column------------x-----------------------------------
**AMT OVERDUE**
37873,1452,3064,2972,2802,2350,2278,2216,2151,2087,2028,1968,1914,1663,1128,1097,1064,1034,1001,976,947,918,893,866
-----x--other columns are similar---x---------------------
Seeking for a better option,if possible
以前当我解决这类问题时,它是 Movielens 项目的流派,在那里我使用了虚拟列概念,它在那里工作,因为流派列中没有太多值,而且一些值在很多行,所以很容易。但是这里看起来很困难,原因有两个
1st reason
因为它包含很多值,同时它可能不包含任何值
2nd reason
如何在 Movielens 类型案例中为每个唯一值或行创建一列
**genre**
action|adventure|comedy
carton|scifi|action
biopic|adventure|comedy
Thrill|action
# so here I had extracted all unique value and created columns
**genre** | **action** | **adventure**| **Comedy**| **carton**| **sci-fi**| and so on...
action|adventure|comedy | 1 | 1 | 1 | 0 | 0 |
carton|scifi|action | 1 | 0 | 0 | 1 | 1 |
biopic|adventure|comedy | 0 | 1 | 1 | 0 | 0 |
Thrill|action | 1 | 0 | 0 | 0 | 0 |
# but here it's different how can I deal with this,I have no clue
**AMT OVERDUE**
37873,866
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)