问题描述
用例:查找特定 @H_404_1@counter 范围内的最大 @H_404_1@id 值
我想创建一个包含以下列的表:@H_404_1@time_epoch int、@H_404_1@t_counter counter
频繁查询是:
@H_404_1@select time_epoch,MAX t_counter where time_epoch >= ... and time_epoch < ...
这是在特定时间范围内查找计数器。计划将 time_epoch 作为主键。我无法查询数据。它总是要求 @H_404_1@ALLOW FILTERING。由于它是一个非常昂贵的功能,我们不想使用它。
如何为用例设计表和查询。
解决方法
让我们假设我们可以按天“存储”(分区)您的数据,假设一天内不会发生足够的写入而使分区过大。然后,我们可以按 DESCending 顺序按 time_epoch
进行聚类。对于基于时间的数据,按降序存储数据通常最有意义(因为业务需求通常更关心最新数据)。
因此,我会建立一个这样的表:
CREATE TABLE event_counter (
day bigint,time_epoch timestamp,t_counter counter,PRIMARY KEY(day,time_epoch))
WITH CLUSTERING ORDER BY (time_epoch DESC);
插入几行后,聚类顺序变得明显:
> SELECT * FROM event_counter ;
WHERE day=20210219
AND time_epoch>='2021-02-18 18:00'
AND time_epoch<'2021-02-19 8:00';
day | time_epoch | t_counter
----------+---------------------------------+-----------
20210219 | 2021-02-19 14:09:21.625000+0000 | 1
20210219 | 2021-02-19 14:08:32.913000+0000 | 2
20210219 | 2021-02-19 14:08:28.985000+0000 | 1
20210219 | 2021-02-19 14:08:05.389000+0000 | 1
(4 rows)
现在选择该范围内的 MAX t_counter
应该可以:
> SELECT day,max(t_counter) as max
FROM event_counter
WHERE day=20210219
AND time_epoch>='2021-02-18 18:00'
AND time_epoch<'2021-02-19 09:00';
day | max
----------+-----
20210219 | 2
,
不幸的是,没有更好的方法。考虑一下。
如果您了解 cassandra 架构,那么您就会知道您的数据基于主键分布在多个节点上。从主键过滤值的唯一方法是横向每个节点,这基本上就是“允许过滤”。