如何合并分组属于同一会话的行

问题描述

访客可以OPEN房屋的前门，然后ENTER房屋中的几个房间。完成所有这些之后，他将再次OPEN前门，离开家。这给出了以下示例数据：

13:00 John  OPEN
13:00 John  ENTER Hall
13:30 John  ENTER Kitchen
13:45 John  ENTER Living room
14:00 John  OPEN
13:30 Steve OPEN
13:30 Steve ENTER Hall
13:40 Steve ENTER Stairs
14:00 Steve ENTER bed room
16:00 Steve ENTER Stairs
16:10 Steve OPEN

因此，换句话说，我们总是只有一个OPEN条目，然后是一个或多个ENTER条目，最后只有一个OPEN条目。另外，多个访客可以同时在房子里，而且他们可以多次访问房子，完全没有限制。

让我们将OPEN到OPEN的序列定义为会话。现在，我想为每个会话创建一行，其中包含所有发生的事件，如下所示：

[13:00,14:00) John  (13:00,Hall),(13:30,Kitchen),(13:45,Living room)
[13:30,16:10) Steve (13:30,(13:40,Stairs),(14:00,bed room),(16:00,Stairs)

如何有效地做到这一点？

我有一个有效的n^2解决方案，该解决方案首先为每个会话获取第一个和最后一个ENTER（使用窗口函数lead和lag，然后与上一个进行比较）），然后在外部循环中搜索所有交错的ENTER条目。这显然表现不佳。

是否有一种方法可以扫描数据集一次，将属于同一会话的所有ENTER个条目标记为唯一的序列号，然后最终对该序列进行分组？我为此感到震惊。

解决方法

一种可能的解决方案是SUM到表中当前行为止OPEN的出现（按名称划分并按时间排序），然后将其除以2得到当前访问号。然后可以将其用于对结果进行分组：

WITH CTE AS (
  SELECT *,(1 + SUM(CASE WHEN action = 'OPEN' THEN 1 ELSE 0 END) OVER (PARTITION BY name ORDER BY time)) / 2 AS access
  FROM data
)
SELECT MIN(time),MAX(time),name,ARRAY_AGG(time || ',' || action) AS actions
FROM CTE
GROUP BY name,access
ORDER BY MIN(time),name

（我的扩展演示的输出，其中John有第二次访问）：

min     max     name    actions
13:00   14:00   John    ["13:00,OPEN","13:00,ENTER Hall","13:30,ENTER Kitchen","13:45,ENTER Living room","14:00,OPEN"]
13:30   16:10   Steve   ["13:30,"13:40,ENTER Stairs",ENTER Bed room","16:00,"16:10,OPEN"]
15:00   16:00   John    ["15:00,"15:00,"15:30,"15:45,OPEN"]

Demo on dbfiddle

gaps-and-islands group-by postgresql window-functions