问题描述
我有一个包含 3M 行和两列的 CSV 文件,它只是阿拉伯语的 Student_name 和 Id,
我想将指代同一个学生的相似名字聚集在一起,例如这些名字可能有拼写错误或多余的空格。
在聚类输出中,有很多遗漏的匹配,例如,两个名字相同,其中之一多出一个空格,在结果文件中,它有时将它们聚类在一个簇中,有时在不同的集群。
假设有五 (5) 个相似的名称,但拼写差异很小,在输出文件中,它给了我三 (3) 个在一个集群中,其余在不同的集群中,尽管它们有相似的差异。 即使我按字母顺序排列名称也会发生这种情况。
我猜是阻塞函数的问题。
是吗?你能指导我修复它吗? 如何增加块大小。
我尝试增加 Cluster 函数中的 max_components 变量,但最终出现内存错误。
提前致谢。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)