如何创建组 |通过考虑相同的连续分组在 Pandas DataFrame 中列来划分子组预定义循环顺序?

问题描述

任务 1: 我正在寻找一种解决方案,通过考虑其中一列(我的 Panda 的 DataFrame,..将其视为列表的值)中相同的连续分组来创建组:

from itertools import groupby

test_list = ['AA','AA','BB','CC','DD','EE','CC']
data = pd.DataFrame(test_list)
data['batches'] = ['1','1','2','3','4','5','6','7','8'] # this is the goal to reach
print(data)

result = [list(y) for x,y in groupby(test_list)]
print(result)

[['AA','AA'],['BB'],['CC'],['DD','DD'],['AA'],['EE'],['CC']]

所以,我有一个包含两列的 DataFrame:第一列是必须按顺序保存的元素列表 + 分组:相同的连续分组。应分配结果的批处理列。

我找不到解决方案或变通方法。如您所见,我使用 itertools groupby 函数通过对相同的缺点进行分组来创建一个列表。项目,但这不是我想看到的最终结果。 我知道 itertools groupby 允许我使用带有“key=' 参数的 lambda 函数来获得我的解决方

我正在考虑将上述内容合并并将其循环到字典中,键是通过使用 enumerate 迭代列表获得的批号,值是列表元素

{1:['AA',2:['BB'],3:['CC'],4: ['DD','DD']...}

之后,我会将字典(或任何其他解决方案/解决方法)转换为数据系列并将其添加到我的批处理列中:

在本练习中,我只想将“字典”的键(唯一批次的数量)返回到批次列。

| list     | batches |
| -------- | ------- |
| AA       | 1       |
| AA       | 1       |
| BB       | 2       |
| CC       | 3       |
| DD       | 4       |
| DD       | 4       |
| DD       | 4       |
| AA       | 5       |
| BB       | 6       |
| EE       | 7       |
| CC       | 8       |

已编辑:

任务 2:为类似任务添加查询

在这种情况下,我的初始列表有一个(预定义的)循环顺序要遵循,例如 AA -- AB -- AC 属于一个主要组,DA -- DB -- 属于到另一个组。

问题是如何计算列子组,以便我可以在我的主组下有子组列表......也就是说,捕获主组内的重复组。

列表 主力
AA 1 1
AB 1 1
交流 1 1
AA 2 1
AB 2 1
交流 2 1
DA 1 2
数据库 1 2

我找到了一个解决方案,其逻辑基于@Shubham 的评论。我使用 .cumcount() 函数解决方案如下:df['sub'] = df.groupby(['main gr','list'].cumcount()+1 .cumcount()+1 如果我们希望子订单计数/索引从 1 开始而不是 0。

(我不是在寻找最佳解决方案,而是在寻找解决方案。不过,我想将此代码用于包含数百万个条目的大型数据集)。

我将非常感谢任何评论支持反馈。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...