cuDF用于增强字符串比较

我正在寻找2个大型csv文件之间的匹配项。我使用此函数来计算2个字符串之间的相似度。如果给定的比率大于预定阈值，那么我将其视为匹配项。

def similar(a,b): return SequenceMatcher(None,a,b).ratio()

因为我需要遍历两个文件的每一行，所以时间复杂度为O（n ^ 2）。我已经考虑过使用哈希将时间复杂度降低到O（n），但这会限制我的匹配成为没有灵活性的精确匹配。但是，第一种方法要花几天时间才能在具有cpu的本地计算机上执行。因此，我想知道是否存在使用cuDF来增强GPU操作的方法。

另外，当我尝试cuDF applymap函数时，它说它不支持字符串dtype，那么还有其他方法可以使用cuDF来实现吗？谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）