选择按不同顺序排序的DISTINCT行

问题描述

我有这张桌子performances，那里有其他桌子上的戏剧表演：

id | play_id |    when    | other uninteresting Meta data
1  |    3    | 2020-04-01 |             ...
2  |    4    | 2020-03-03 |             
3  |    3    | 2020-01-02 |             
4  |    1    | 2020-06-03 |             
5  |    4    | 2020-10-13 |

我想为每个不同的戏剧选择最早的演出（因此，每个戏剧都由一个最早的演出代表），从最早到最新的顺序排列。

所以从显示的数据中我想得到这个：

id | play_id |    when    | other uninteresting Meta data
3  |    3    | 2020-01-02 |             ...
2  |    4    | 2020-03-03 |             
4  |    1    | 2020-06-03 |

到目前为止，在研究了here和here一些答案之后，我想到了这个查询


SELECT * FROM
(
  SELECT disTINCT ON (play_id) *
  FROM performances
  WHERE performances.deleted_at is null
  ORDER BY performances.play_id ASC,performances.when ASC
) distinct_plays
order by distinct_plays.when ASC

但是，我一点都不信任它，因为在链接的线程中，有人在争吵并告诉对方彼此的答案是错误的。虽然我在该线程中看到了一些答案问题，但在该答案中还没有看到问题。

这对我的任务很好吗？它不会选择重复的行还是效率很低？

解决方法

您的查询满足您的要求。 distinct on通常是Postgres中解决此类最大n组问题的正确工具... a，它在结果集中的行顺序上没有灵活性。

似乎您想要的结果与distinct on中的排序不同-因此您需要另一层嵌套。尽管您的代码可以满足您的要求，但我建议您改用row_number()（与其他供应商特定的distinct on相比，它也具有许多数据库支持的优点）：

SELECT *
FROM (
    SELECT p.*,ROW_NUMBER() OVER(PARTITION BY play_id ORDER BY p.when asc) rn
    FROM performances p
    WHERE p.deleted_at is null
) p
WHERE rn = 1
ORDER BY p.when asc

您可能还想尝试相关的子查询：

SELECT p.*
FROM performances p
WHERE p.deleted_at IS NULL AND p.when = (
    SELECT MIN(p1.when) FROM performances p1 WHERE p1.play_id = p.play_id
)
ORDER BY p.when

要获得相关子查询的性能，请考虑在(play_id,when)上建立索引。

您可以使用first_value：

select first_value(id) over(w),play_id,first_value(when) over(w) -- the rest of the columns analogously
from performances
group by play_id
window w as (partition by play_id order by when)

datetime datetime datetime greatest-n-per-group postgresql sql sql subquery