重复数据删除库、阻塞问题、缺少匹配项

问题描述

我有一个包含 3M 行和两列的 CSV 文件,它只是阿拉伯语的 Student_name 和 Id,

我想将指代同一个学生的相似名字聚集在一起,例如这些名字可能有拼写错误或多余的空格。

在聚类输出中,有很多遗漏的匹配,例如,两个名字相同,其中之一多出一个空格,在结果文件中,它有时将它们聚类在一个簇中,有时在不同的集群。

假设有五 (5) 个相似的名称,但拼写差异很小,在输出文件中,它给了我三 (3) 个在一个集群中,其余在不同的集群中,尽管它们有相似的差异。 即使我按字母顺序排列名称也会发生这种情况。

我猜是阻塞函数的问题。

是吗?你能指导我修复它吗? 如何增加块大小。

我尝试增加 Cluster 函数中的 ma​​x_components 变量,但最终出现内存错误

提前致谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)