如何实现符合特定限制的MinHash

问题描述

对于我的班级,我需要做一个程序来估计两个非常大的文档的Jaccard相似度。该项目的约束条件是将程序视为与包含1000亿个整​​数的文档进行交互。结果,我不允许实现任何在内存中存储超过1000条数据的数据结构。

对于该作业,我已经生成了两个包含1000000个随机整数的.txt文件。我应该如何整理这些文件,以免超出限制?

(对于我肯定有的误解,我深表歉意,我的教授没有解释MinHashing,我一直在尝试从youtube视频中教自己。)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)