聚集大量字符串

我有约381,000个字符串的列表。我设法计算了所有NC2对的字符串距离（约720亿）。

现在，我想形成字符串簇以便快速搜索。我通常使用sklearn聚集群集。但是，我担心这次可能会遇到内存问题。

字符串集群的目的是让我在数据输入执行程序输入名称时可以快速搜索相似的名称。

如何在如此大的集合上实现聚类？有没有更好的方法可以实现我的目的？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）