如何在python中处理未知大小的多值行数值?

问题描述

我实际上是在尝试解决 vidya 最近的 Hackathon LTFS(Bank Data) 分析问题,但在那里我遇到了一些独特的问题,实际上并不是太独特。解释一下

Problem

Bureau 数据集中的几列名为 REPORTED DATE - HISTCUR BAL - HISTAMT OVERDUE - HIST & AMT PAID - HIST 由空值,或一行多个值组成,而且每一行的值个数不相同

这是数据集的一部分(不是original data,因为行大小很大)

**Requested Date - Hist**                                                                   
20180430,20180331,20191231,20191130,20191031,20190930,20190831,20190731,20190630,20190531,20190430,20190331,20121031,20120930,20120831,20120731,20120630,20120531,20120430,----------------x-----------2nd column------------x-----------------------------------

**AMT OVERDUE**
37873,1452,3064,2972,2802,2350,2278,2216,2151,2087,2028,1968,1914,1663,1128,1097,1064,1034,1001,976,947,918,893,866

-----x--other columns are similar---x---------------------

Seeking for a better option,if possible

以前当我解决这类问题时,它是 Movielens 项目的流派,在那里我使用了虚拟列概念,它在那里工作,因为流派列中没有太多值,而且一些值在很多行,所以很容易。但是这里看起来很困难,原因有两个

1st reason 因为它包含很多值,同时它可能不包含任何值

2nd reason 如何在 Movielens 类型案例中为每个唯一值或行创建一列

**genre**
action|adventure|comedy
carton|scifi|action
biopic|adventure|comedy
Thrill|action

# so here I had extracted all unique value and created columns 

**genre**                 | **action** | **adventure**| **Comedy**| **carton**| **sci-fi**| and so on...
action|adventure|comedy   |   1        |     1        |      1    |     0     |      0    |    
carton|scifi|action       |   1        |     0        |      0    |     1     |      1    |
biopic|adventure|comedy   |   0        |     1        |      1    |     0     |      0    |
Thrill|action             |   1        |     0        |      0    |     0     |      0    |

# but here it's different how can I deal with this,I have no clue
**AMT OVERDUE**
37873,866

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)