数据处理案例,数据质量案例【2000万开房记录泄露数据处理】

1)名称错误 北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了 北京海定区世纪城:北京海淀区 2) 全半角替换 ”北京*餐饮有限公司“改为””北京*餐饮有限公司““ 3)空格替换 海淀区世纪城金源时代商务中心  C座 4)数据补齐 樊城区建华路:出现这个地址,应该加上湖北省襄阳市。     a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功     b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法)      5)数据拆分,利于统计分析 北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园","10楼","4单元" 6)怎么处理数据库不识别的字? 数据库不识别的字,例如"虓" 在数据库中为"?" 7) 证件类型 : ID代表身份证,OTH可能代表其他(other) jz 代表什么意思呢? 找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本} 8) 字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53"  统一转换成时间格式 MysqL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s') 9) 身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?} 10) 将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。 11) 将地址列中有公司名称“海淀区世纪城金源时代商务中心****                 北京***传播有限公司”拆开成两个字段。 12) 时间字段为空的,怎么补齐这个数据?{这个字段很关键} 13)怎么来处理下面问题? 遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““ 14)衍生数据(获得更加多的信息) 根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等 根据生日,计算出现在年龄。 根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址} 根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵} 根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。 可计算出用户开房时的年龄:开房时间-出生日期 根据所在公司,算出用户所在行业 15)找出有价值用户 {给用户评级等等}

相关文章

自1998年我国取消了福利分房的政策后,房地产市场迅速开展蓬...
文章目录获取数据查看数据结构获取数据下载数据可以直接通过...
网上商城系统MySql数据库设计
26个来源的气象数据获取代码
在进入21世纪以来,中国电信业告别了20世纪最后阶段的高速发...