洪水控制，检查过去的消息与最新消息在％中的相等程度

问题描述

|| 我正在为聊天系统进行洪水控制，其中一个想法是根据成员在X分钟内发送的最新消息来检查过去的消息是否相等。因此，如果成员的最新消息是在过去消息的5分钟内发送的，则它将检查过去消息与他发送的最新消息是否相等，如果命中率达到或超过80％，他将无法讲话一会儿。问题是我不知道这种算法是什么样子，我也不知道这是否是一种有效的方法... 让我们看事实，用户发送：

[00:00:01] MemberX: Hi everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi everyone ! 1

因此，在上述情况下，用户将在X分钟内删除其语音访问权限。我想我可以对消息进行校验和，该消息将适用于顺序消息，例如在末尾添加文本的消息。我如何计算匹配百分比？过去消息的字节长度与最新消息的字节长度相匹配吗？例：过去的消息10个字节最新消息14个字节校验和最多匹配9个字节：“ 1” 现在，让我们再努力一点：

[00:00:01] MemberX: Hi hey everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi 123 everyone !

我认为，在第二种情况下，校验和将失败并且根本无法使用。有没有很好的算法来捕捉这样的洪水？我不想捕获其中的100％，但至少要保留一小部分以使房间更清洁。它的第一部分适用于许多滥用者，但是一些聪明的人会想到第二种方式，也许还有很多其他方式，这只是我可以实施的初步想法。我不想限制所有用户使用洪泛时间限制，因为他们中的大多数人确实会快速键入。我只想吸引人们在短时间内反复发送可重复的文本。所以我的问题是，什么是克服此类洪水的好算法？

解决方法

许多IRC服务器使用“泄漏桶”方法将用户限制为恒定速率。他们跟踪用户最后发送的消息之间的时间间隔，并使用该时间来计算“费率”。通常将其实现为要发送的每用户消息队列。如果用户超出速率，则将其限制，除非用户超出速率超出给定值，此时将被禁止。 IRC上的另一种常见方法是简单地跟踪最近的N条消息，如果超出了某些可重复性阈值（即，同一消息一遍又一遍）以踢打/禁止用户。 , 我可能会看一下http://en.wikipedia.org/wiki/Levenshtein_distance，然后将接收到的字符串中的所有单词的得分与旧字符串相结合。只有马上想到的事情。

控制控制控制消息消息相等相等程度