如何在Vaex中删除重复项?

问题描述

我有一些来自用户的条目,以及该用户在我的网站上进行了多少互动...

我有340k行和70+列,我想使用Vaex,但是在做简单的事情(例如删除重复项)时遇到了问题。

有人可以帮我吗?

import pandas as pd

df = pd.DataFrame({'user': ['Bob','Bob','Alice',"Ralph","Ralph"],'date': ['2013-12-05','2014-02-05','2013-11-07','2014-04-22','2014-04-30','2014-04-20','2014-05-29'],'interaction_num': ['1','2','1','3','2']})

我希望获得与pandas.drop_duplicates(keep =“ last”)函数相同的结果

df.drop_duplicates('user',keep='last',inplace=True)

使用Vaex的预期结果应该是:

    user    date    interaction_num
1   Bob     2014-02-05  2
4   Alice   2014-04-30  3
6   Ralph   2014-05-29  2

非常感谢您。

解决方法

Duplicate question

似乎还没有,但我们应该期待这个功能。

与此同时,还有 an attempt from the creator of vaex

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...