BigQuery分区/集群键向CTE表的传播-性能

问题描述

我在BigQuery数据库中设置了一个持久表(使用Looker,如果相关的话)。该表既有一个partition_key,也有几个cluster_keys。我按时分区,然后聚集在主键(由GENERATE_UUID组成)上,再加上用户将要搜索的两个主要字段。

然后我有一个CTE表,其余查询将从中提取数据。此CTE选择持久性表的一个子集(具有分区键和集群键的一个),但是此表本身不是持久性的,因此我认为我不能在其中包括分区键和集群键。看起来像这样:

WITH my_table_pre_exclusion AS (--
        SELECT
            *
        FROM
            `server.data.prefix_my_table_persist`
        WHERE
        (
                      ( -- Some filter here
                ) -- AND ... some filter here
        )
    )

我的问题是:当我稍后进行大量涉及分区或群集键字段中的字段的联接时,从该表中提取数据(预先应用了一堆过滤器)是否会损害性能?

跳过此CTE表,直接从我所有下游联接中的持久性表中拉出,然后重新应用过滤器(适用于所有下游组件),是否会更有性能?代码会膨胀很多,但是我做了一些基准测试,并且我认为,这会损害性能,但是我不确定。

是否存在“两全其美”的方法,我不必对大量下游表应用相同的过滤器,但仍然可以获得最佳性能?也许事后将my_table_pre_exclusion内部联接到所有下游表?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)