问题描述
我大约有四分之一的文本块,类似于简单文本形式的论坛帖子。 鉴于这些帖子中有一些重复内容,我想发现这些帖子中最常出现的字符串系列是什么。
例如,如果发布了字符串“您的里程可能会有所不同”,我想知道多少次,以及数据中出现的所有其他其他出现更高的字符串(显然,这仅限于一点,我不想知道少于两个或三个单词的组合)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)