问题描述
对于我的班级,我需要做一个程序来估计两个非常大的文档的Jaccard相似度。该项目的约束条件是将程序视为与包含1000亿个整数的文档进行交互。结果,我不允许实现任何在内存中存储超过1000条数据的数据结构。
对于该作业,我已经生成了两个包含1000000个随机整数的.txt文件。我应该如何整理这些文件,以免超出限制?
(对于我肯定有的误解,我深表歉意,我的教授没有解释MinHashing,我一直在尝试从youtube视频中教自己。)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)