使用python比较并查找跨数据框的重复值不是整个列

问题描述

我的时间表数据框架很大,我需要计算进行的实验次数。挑战在于for的用法在行中重复(可以),但在某些(但不是全部)列中重复。我想删除第二个条目(如果重复的话),但是我不能删除整个第二列,因为它也会包含一些新值。如何以并行方式比较两列的各个条目,如果有重复项,如何删除第二列? 此活动的持续时间最长为两天,因此连续三天是一个新的活动,其名称从第三天开始。 实验名称的实际文本很复杂,数据框的宽度为120列,因此无法以列表或字典的形式输入。我希望使用python或numpy函数,但可以使用循环。

以下是开始数据帧和所需输出示例的图片。starting data frame example

de-duplicated data frame example

enter image description here

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)