cuDF用于增强字符串比较

问题描述

我正在寻找2个大型csv文件间的匹配项。 我使用此函数来计算2个字符串之间的相似度。如果给定的比率大于预定阈值,那么我将其视为匹配项。

def similar(a,b): return SequenceMatcher(None,a,b).ratio()

因为我需要遍历两个文件的每一行,所以时间复杂度为O(n ^ 2)。我已经考虑过使用哈希将时间复杂度降低到O(n),但这会限制我的匹配成为没有灵活性的精确匹配。但是,第一种方法要花几天时间才能在具有cpu的本地计算机上执行。因此,我想知道是否存在使用cuDF来增强GPU操作的方法

另外,当我尝试cuDF applymap函数时,它说它不支持字符串dtype,那么还有其他方法可以使用cuDF来实现吗?谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)