问题描述
我正在寻找2个大型csv文件之间的匹配项。 我使用此函数来计算2个字符串之间的相似度。如果给定的比率大于预定阈值,那么我将其视为匹配项。
def similar(a,b): return SequenceMatcher(None,a,b).ratio()
因为我需要遍历两个文件的每一行,所以时间复杂度为O(n ^ 2)。我已经考虑过使用哈希将时间复杂度降低到O(n),但这会限制我的匹配成为没有灵活性的精确匹配。但是,第一种方法要花几天时间才能在具有cpu的本地计算机上执行。因此,我想知道是否存在使用cuDF来增强GPU操作的方法。
另外,当我尝试cuDF applymap函数时,它说它不支持字符串dtype,那么还有其他方法可以使用cuDF来实现吗?谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)