估计唯一字符串的数量

问题描述

任务是估计(不计数)唯一字符串。这很困难,因为我们有很多字符串,而且没有 8 Mb 的内存。

所以误差不能超过 5%。

首先,我尝试制作布隆过滤器。我选择了 C++。但是字符串包含来自俄语字母表的字母,这使任务变得更加困难。

此外,在此任务中可以将 Python 与 numpy 和 pandas 结合使用,但我不知道如何将其用于此任务。

有人知道怎么用吗?也许是一些统计数据?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)