如何在Redis中存储唯一身份访问

问题描述

我想知道有多少人访问了每个博客页面。为此,我在Blogs表(MS SQL DB)中有一列来保持总访问量。但我也希望访问尽可能独特。 因此,我将用户的唯一ID和博客ID保留在Redis缓存中,并且每次用户访问页面时,我都会检查她是否曾经访问过该页面,否则,我将增加总访问量。

我的问题是,存储此类数据的最佳方法是什么? 当前,我创建一个类似“ project-visit- {blogId}-{userId}”的密钥,并使用StringSetAsync和StringGetAsync。但是我不知道这种方法是否有效。

有什么想法吗?

解决方法

您的解决方案不是原子的,除非您将get和set操作包装在事务或Lua脚本中。

更好的解决方案是将project-visit-{blogId}-{userId}保存到Redis集。造访时,请致电SADD在集合中添加一个项目。仅当用户之前未访问过此页面时,Redis才会向集合中添加新项目。如果要获取总数,只需调用SCARD即可获取集合的大小。

,

如果您可以牺牲一些精度,那么HyperLogLog(HLL)概率数据结构是计算唯一访问次数的理想解决方案,因为:

  • 它仅使用12K的内存,并且是固定的-它们不会随着唯一访问次数的增加而增加
  • 您不需要存储用户数据,这会使您的服务更加注重隐私性

HyperLogLog算法确实很聪明,但是您不需要了解它的内部原理就可以使用它,几年前,Redis将其添加为数据结构。因此,作为用户,您需要知道的是使用HyperLogLogs,您可以在12K的固定内存空间中对唯一元素(访问)进行计数,误差率为0.81%

比方说,您希望每天记录不重复的访问次数;您每天将必须拥有一个HyperLogLog,其名称类似于cnt:page-name:20200917,并且每次用户访问页面时,您都将其添加到HLL:

> PFADD cnt:page-name:20200917 {userID}

如果您多次添加同一用户,则他们仍将仅被计数一次。 要获得计数,请运行:

> PFCOUNT cnt:page-name:20200917

您可以通过对不同时间间隔使用不同的HLL(例如,对于2020年9月为cnt:page-name:202009)来更改唯一用户的粒度。

这个快速的解释器很好地说明了这一点:https://www.youtube.com/watch?v=UAL2dxl1fsE

此博客文章也可能有帮助:https://redislabs.com/redis-best-practices/counting/hyperloglog/

如果您对内部实现感到好奇,Antirez的发行文章非常有用:http://antirez.com/news/75

注意:请注意,使用此解决方案时,您丢失了哪个用户访问了该页面的信息,您只有计数

,

无论后端技术(编程语言等)如何,都可以使用Redis流。这是Redis 5中的一项非常新功能,可让您定义在Redis中创建的主题(流)的发布者和订阅者。然后,在每次用户访问中,您都向该流提交新记录(当然是异步的)。您可以在该记录中保留所需的任何信息(用户ip,id等。)。

为每次唯一访问定义一个键根本不是一个好主意,因为:

  • 这使得Redis GC的生活更加艰难
  • 比较用例的性能无法与Stream相比,特别是如果您将该redis实例用于其他目的
  • 不断收集这些独特的访问并进行处理是没有效率的。您必须始终扫描所有按键

结论: 如果要使用Redis,请使用Redis Stream。如果可以更改Redis,请确定使用Kafka(或类似技术)。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...