问题描述
我有一个Web /移动应用程序,该应用程序应显示无限滚动视图(项目列表的连续性以动态方式定期加载),其中包含项,其中每个商品都有一个 weight (重量),与其他商品的重量相比,该商品的重量越大,则加载该商品并在列表中显示给用户的机会/可能性就应该越高,这些物品应该随机装载,只是物品出现在列表中的机会应该不同。
我正在寻找一种有效的算法/解决方案,或者至少可以帮助我实现这一目标的提示。
一些值得一提的地方:
- 权重具有以下边界:0
- 重量不是静态值,它会随着某些项目的属性而随时间变化。
- 每件重量大于0的物品都应有机会向用户显示,即使重量明显低于其他物品的重量。
- 当用户滚动并向API执行多个请求时,他/她不应看到重复的项目,或者至少机会不多。
- 我使用SQL数据库(PostgreSQL)来存储项目,因此该解决方案对于这种类型的数据库应该是有效的。 (这不应该是纯粹的SQL解决方案)
希望我没有错过任何重要的事情。让我知道我是否愿意。
解决方法
以下是实现该解决方案的一些想法:
数据库表应具有一列,其中每个条目都是按如下方式生成的数字:
- log(R)/ W,
其中-
- W是记录的权重大于0(本身是其自己的列),并且
- R是(0,1)中每个记录的统一随机数
(另请参见Arratia,R.,“关于均匀随机整数的素因式分解中的依赖量”,2002年)。然后根据需要获取该列中具有最高值的记录。
但是,请注意,SQL没有生成随机数的标准方法。实现SQL的DBMS有其自己的方式(例如PostgreSQL的RANDOM()
),但是它们的工作方式取决于DBMS(例如,将MySQL的RAND()
与T-SQL的{{1}比较}。
彼得·奥(Peter O)有一个好主意,但有一些问题。我会对其进行扩展,以期能够以特定于用户的方式进行更好的改编,而数据库空间成本更高:
- 使用单列,但存储在多个字段中。建议您使用Postgres JSONB类型(将其存储为json,可以对其进行索引和查询)。使用
log(R) / W
所在的几个字段。我可以大致说成log(U)
+log(P)
,其中U
是用户数,P
是最少5列的项目数。在JSONB中的所有字段上添加索引。随着用户/项目数量的增加,添加更多字段。 - 具有一个后台进程,该进程定期轮换#1中的数字。这可能会导致重复,但是如果您一次仅旋转一小部分项目(例如,它们的O(sqrt(P))),则用户注意到的几率很低。特别是如果您实际上是在向后和向前查询数据,并在显示下一行之前将数据拼接/删除在一起。如果遇到问题,请谨慎使用手动分页调整,对您大有帮助。
- 在显示项目之前,随机选择一个索引字段并对其进行排序。这意味着您有
1 in log(P) + log(U)
几率向用户显示相同的数据。理想情况下,用户将选择那些索引字段的随机子集(以避免两次看到相同的顺序)并将其用作顺序,但无法想到一种可行且实用的方法。如果对随机权重进行归一化,则排序和排序很重要。