问题描述
select *
from Table1
where NUMid in (select NUMid
from Table2
where email = 'xyz@gmail.com')
我的目的是从 table2 中获取电子邮件值等于 xyz@gmail.com 的所有 NUMid 的列表,并使用这些 NUMid 列表从 Table1 中进行查询。
在 presto 中,查询首先运行外部查询。有没有办法运行和存储内部查询的结果,然后在 presto 的外部查询中使用它?
解决方法
优化器可以为所欲为。在这种情况下,它应该运行一次内部查询,然后本质上执行 JOIN
(技术上是“半连接”)操作。
在许多数据库中,带有适当索引的 exists
解决了性能问题。
如果你想确保子查询只计算一次,你可以将它移到 ON
子句中。正确的等效查询如下所示:
select t1.*
from Table1 t1 join
(select distinct t2.NUMid
from Table2 t2
where t2.email = 'xyz@gmail.com'
) t2
on t1.NUMid = t2.NUMid;
select distinct
对于 join
代码与 in
代码等效很重要。但是,如果您知道没有重复项,则无需子查询就可以更通俗地编写:
select t1.*
from Table1 t1 join
Table2 t2
on t1.NUMid = t2.NUMid
where t2.email = 'xyz@gmail.com'
,
Presto 和 Trino (formerly known as PrestoSQL) 将该查询作为“半连接”操作执行:它使用来自内部查询的行构建内存索引,并探测外部查询的行查询该索引。如果 value 存在,则发出来自外部查询的行,否则将其过滤掉。
在 Trino 的最新版本中,有一个称为“动态过滤”的功能,它允许查询引擎根据从内部查询动态获取的信息在源上动态过滤和修剪外部查询的数据。您可以在以下博文中阅读更多相关信息: