如何在Cassandra主键中找到范围?

问题描述

用例:查找特定 @H_404_1@counter 范围内的最大 @H_404_1@id 值

我想创建一个包含以下列的表:@H_404_1@time_epoch int、@H_404_1@t_counter counter

频繁查询是:

@H_404_1@select time_epoch,MAX t_counter where time_epoch >= ... and time_epoch < ...

这是在特定时间范围内查找计数器。计划将 time_epoch 作为主键。我无法查询数据。它总是要求 @H_404_1@ALLOW FILTERING。由于它是一个非常昂贵的功能,我们不想使用它。

如何为用例设计表和查询

解决方法

让我们假设我们可以按天“存储”(分区)您的数据,假设一天内不会发生足够的写入而使分区过大。然后,我们可以按 DESCending 顺序按 time_epoch 进行聚类。对于基于时间的数据,按降序存储数据通常最有意义(因为业务需求通常更关心最新数据)。

因此,我会建立一个这样的表:

CREATE TABLE event_counter (
    day bigint,time_epoch timestamp,t_counter counter,PRIMARY KEY(day,time_epoch))
WITH CLUSTERING ORDER BY (time_epoch DESC);

插入几行后,聚类顺序变得明显:

> SELECT * FROM event_counter ;
    WHERE day=20210219 
      AND time_epoch>='2021-02-18 18:00'
      AND time_epoch<'2021-02-19 8:00';

 day      | time_epoch                      | t_counter
----------+---------------------------------+-----------
 20210219 | 2021-02-19 14:09:21.625000+0000 |         1
 20210219 | 2021-02-19 14:08:32.913000+0000 |         2
 20210219 | 2021-02-19 14:08:28.985000+0000 |         1
 20210219 | 2021-02-19 14:08:05.389000+0000 |         1

(4 rows)

现在选择该范围内的 MAX t_counter 应该可以:

> SELECT day,max(t_counter) as max
FROM event_counter
WHERE day=20210219
  AND time_epoch>='2021-02-18 18:00'
  AND time_epoch<'2021-02-19 09:00';

 day      | max
----------+-----
 20210219 |   2
,

不幸的是,没有更好的方法。考虑一下。

如果您了解 cassandra 架构,那么您就会知道您的数据基于主键分布在多个节点上。从主键过滤值的唯一方法是横向每个节点,这基本上就是“允许过滤”。