重复数据删除库、阻塞问题、缺少匹配项

我有一个包含 3M 行和两列的 CSV 文件，它只是阿拉伯语的 Student_name 和 Id，

我想将指代同一个学生的相似名字聚集在一起，例如这些名字可能有拼写错误或多余的空格。

在聚类输出中，有很多遗漏的匹配，例如，两个名字相同，其中之一多出一个空格，在结果文件中，它有时将它们聚类在一个簇中，有时在不同的集群。

假设有五 (5) 个相似的名称，但拼写差异很小，在输出文件中，它给了我三 (3) 个在一个集群中，其余在不同的集群中，尽管它们有相似的差异。即使我按字母顺序排列名称也会发生这种情况。

我猜是阻塞函数的问题。

是吗？你能指导我修复它吗？如何增加块大小。

我尝试增加 Cluster 函数中的 max_components 变量，但最终出现内存错误。

提前致谢。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）