如何将 DataFrame 转换为元组迭代器，其中每个元组都是一个分为类别的值列表？

问题描述

这是我的数据帧 -

In [106]: ogl.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries,0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype
---  ------                       --------------    -----
 0   geolocation_zip_code_prefix  1000163 non-null  int64
 1   geolocation_lat              1000163 non-null  float64
 2   geolocation_lng              1000163 non-null  float64
 3   geolocation_city             1000163 non-null  object
 4   geolocation_state            1000163 non-null  object
dtypes: float64(2),int64(1),object(2)
memory usage: 38.2+ MB

它来自Brazilian E-Commerce Public Dataset by Olist,olist_geolocation_dataset.csv。奇怪的是，鉴于 geolocation_zip_code_prefix、geolocation_city 和 geolocation_state 是不是冗余信息。例如第 49285 行："03203",-23.598384873160597,-46.56677381072186,sao paulo,SP 和第 51000 行："03203",-23.216648333054426,-46.86137071772756,jundiaí,SP 我很想知道 (geolocation_lat,geolocation_lng) 预测 (geolocation_state,geolocation_city,geolocation_zip_code_prefix) 的能力如何。可以将这 3 个字段的组合视为包含 (03203,SP) 列表（例如 (geolocation_lat,geolocation_lng)）的类别（例如 [(-23.598384873160597,-46.56677381072186),...]）。我认为这可以通过单向方差分析来实现，但现在我开始怀疑这一点。除了根据定量数据（地理位置）预测类别外，我将如何衡量关联强度，例如 Cramér's V？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

anova pandas python scipy