问题描述
||
我正在为聊天系统进行洪水控制,其中一个想法是根据成员在X分钟内发送的最新消息来检查过去的消息是否相等。
因此,如果成员的最新消息是在过去消息的5分钟内发送的,则它将检查过去消息与他发送的最新消息是否相等,如果命中率达到或超过80%,他将无法讲话一会儿。
问题是我不知道这种算法是什么样子,我也不知道这是否是一种有效的方法...
让我们看事实,用户发送:
[00:00:01] MemberX: Hi everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi everyone ! 1
因此,在上述情况下,用户将在X分钟内删除其语音访问权限。
我想我可以对消息进行校验和,该消息将适用于顺序消息,例如在末尾添加文本的消息。
我如何计算匹配百分比?
过去消息的字节长度与最新消息的字节长度相匹配吗?
例:
过去的消息10个字节
最新消息14个字节
校验和最多匹配9个字节:“ 1”
现在,让我们再努力一点:
[00:00:01] MemberX: Hi hey everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi 123 everyone !
我认为,在第二种情况下,校验和将失败并且根本无法使用。
有没有很好的算法来捕捉这样的洪水?我不想捕获其中的100%,但至少要保留一小部分以使房间更清洁。
它的第一部分适用于许多滥用者,但是一些聪明的人会想到第二种方式,也许还有很多其他方式,这只是我可以实施的初步想法。
我不想限制所有用户使用洪泛时间限制,因为他们中的大多数人确实会快速键入。我只想吸引人们在短时间内反复发送可重复的文本。
所以我的问题是,什么是克服此类洪水的好算法?
解决方法
许多IRC服务器使用“泄漏桶”方法将用户限制为恒定速率。他们跟踪用户最后发送的消息之间的时间间隔,并使用该时间来计算“费率”。通常将其实现为要发送的每用户消息队列。如果用户超出速率,则将其限制,除非用户超出速率超出给定值,此时将被禁止。
IRC上的另一种常见方法是简单地跟踪最近的N条消息,如果超出了某些可重复性阈值(即,同一消息一遍又一遍)以踢打/禁止用户。
, 我可能会看一下http://en.wikipedia.org/wiki/Levenshtein_distance,然后将接收到的字符串中的所有单词的得分与旧字符串相结合。
只有马上想到的事情。