simhash simhash算法库

程序名称:simhash

授权协议: MIT

操作系统: Linux

开发语言: C/C++

simhash 介绍

专门针对中文文档的simhash算法库

简介

此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。

详见SimhashBlog

特性

  • 使用 CppJieba 作为分词器和关键词抽取器

  • 使用 jenkins 作为 hash 函数

  • hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。

依赖

  • g (version >= 4.1 recommended), or clang .

用法

mkdir build cd build
cmake ..
make

演示

./bin/simhash.demo

结果如下:

文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。"
关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089"]
simhash值是: 17831459094038722629
100010110110和110001110011 simhash值的相等判断如下:
海明距离阈值认设置为3,则isEqual结果为:0
海明距离阈值认设置为5,则isEqual结果为:1

详情请看 src/main.cpp

客服

[email protected]

simhash 官网

https://github.com/aszxqw/simhash

相关编程语言

欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模...
Salad 是一种有效且灵活的实现著名的异常检测方法回...
multilanguage 是一个多语开发工具包,用于缓存多语...
go-cortex 是一个服务,通过倾听你的句子,并视图理...
DKPro Core 是基于 Apache UIMA 框架之上的自然语言...
NLTK 会被自然地看作是具有栈结构的一系列层,这些层...