问题描述
这是我的数据帧 -
In [106]: ogl.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries,0 to 1000162
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 geolocation_zip_code_prefix 1000163 non-null int64
1 geolocation_lat 1000163 non-null float64
2 geolocation_lng 1000163 non-null float64
3 geolocation_city 1000163 non-null object
4 geolocation_state 1000163 non-null object
dtypes: float64(2),int64(1),object(2)
memory usage: 38.2+ MB
它来自Brazilian E-Commerce Public Dataset by Olist,olist_geolocation_dataset.csv。奇怪的是,鉴于 geolocation_zip_code_prefix
、geolocation_city
和 geolocation_state
是不是冗余信息。例如第 49285 行:"03203",-23.598384873160597,-46.56677381072186,sao paulo,SP
和第 51000 行:"03203",-23.216648333054426,-46.86137071772756,jundiaí,SP
我很想知道 (geolocation_lat,geolocation_lng)
预测 (geolocation_state,geolocation_city,geolocation_zip_code_prefix)
的能力如何。可以将这 3 个字段的组合视为包含 (03203,SP)
列表(例如 (geolocation_lat,geolocation_lng)
)的类别(例如 [(-23.598384873160597,-46.56677381072186),...]
)。我认为这可以通过单向方差分析来实现,但现在我开始怀疑这一点。除了根据定量数据(地理位置)预测类别外,我将如何衡量关联强度,例如 Cramér's V?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)