如何创建组 |通过考虑相同的连续分组在 Pandas DataFrame 中列来划分子组预定义循环顺序？

问题描述

任务 1： 我正在寻找一种解决方案，通过考虑其中一列（我的 Panda 的 DataFrame，..将其视为列表的值）中相同的连续分组来创建组:

from itertools import groupby

test_list = ['AA','AA','BB','CC','DD','EE','CC']
data = pd.DataFrame(test_list)
data['batches'] = ['1','1','2','3','4','5','6','7','8'] # this is the goal to reach
print(data)

result = [list(y) for x,y in groupby(test_list)]
print(result)

[['AA','AA'],['BB'],['CC'],['DD','DD'],['AA'],['EE'],['CC']]

所以，我有一个包含两列的 DataFrame：第一列是必须按顺序保存的元素列表 + 分组：相同的连续分组。应分配结果的批处理列。

我找不到解决方案或变通方法。如您所见，我使用 itertools groupby 函数通过对相同的缺点进行分组来创建一个列表。项目，但这不是我想看到的最终结果。 我知道 itertools groupby 允许我使用带有“key=' 参数的 lambda 函数来获得我的解决方案。

我正在考虑将上述内容合并并将其循环到字典中，键是通过使用 enumerate 迭代列表获得的批号，值是列表元素：

{1:['AA',2:['BB'],3:['CC'],4: ['DD','DD']...}

之后，我会将字典（或任何其他解决方案/解决方法）转换为数据系列并将其添加到我的批处理列中：

在本练习中，我只想将“字典”的键（唯一批次的数量）返回到批次列。

| list     | batches |
| -------- | ------- |
| AA       | 1       |
| AA       | 1       |
| BB       | 2       |
| CC       | 3       |
| DD       | 4       |
| DD       | 4       |
| DD       | 4       |
| AA       | 5       |
| BB       | 6       |
| EE       | 7       |
| CC       | 8       |

已编辑：

任务 2：为类似任务添加的查询：

在这种情况下，我的初始列表有一个（预定义的）循环顺序要遵循，例如 AA -- AB -- AC 属于一个主要组，DA -- DB -- 属于到另一个组。

问题是如何计算列子组，以便我可以在我的主组下有子组列表......也就是说，捕获主组内的重复组。

列表	子	主力
AA	1	1
AB	1	1
交流	1	1
AA	2	1
AB	2	1
交流	2	1
DA	1	2
数据库	1	2

我找到了一个解决方案，其逻辑基于@Shubham 的评论。我使用 .cumcount() 函数的解决方案如下：df['sub'] = df.groupby(['main gr','list'].cumcount()+1 .cumcount()+1 如果我们希望子订单计数/索引从 1 开始而不是 0。

（我不是在寻找最佳解决方案，而是在寻找解决方案。不过，我想将此代码用于包含数百万个条目的大型数据集）。

我将非常感谢任何评论或支持反馈。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

dictionary-comprehension itertools pandas pandas pandas-groupby python-3.x

如何创建组 |通过考虑相同的连续分组在 Pandas DataFrame 中列来划分子组预定义循环顺序？

问题描述

解决方法

相关问答