程序名称:DuplicateDetector
授权协议: 未知
操作系统: 跨平台
开发语言: Python
重复检测软件(Python实现)
可以检测英文文档之间的重复,包括完全重复(除标点,格式外都相同),和相近重复(部分(90%)抄袭)
Todo: 1. 数据抄袭(英文文档中数据集中的地方,比较多的数据相同) 2. 中文分词 3. 噪音消除
https://github.com/zoowii/DuplicateDetector