问题描述
我正在使用数据块,并且有一个1.5亿行数据集“ df1”,其中包含以下列:
- event_id
- event_group_id
- 开始时间(时间戳)
- 结束时间(时间戳)
You can see an example of "df1" here
我想创建另一个统计所有同时发生的事件的数据集“ df2”,并在每5分钟的时间窗口中获得最大值。另外,每个group_event_id我都需要它。 “ df2”数据集应如下所示:
- time_window
- event_group_id
- max_event_count
You can see an example of "df2" here
我想在最小开始时间之前的时间窗口开始time_window列,并在最大结束时间之后的时间窗口结束它。 你能帮我吗?
解决方法
您可能需要查询和加入很多东西!您可以通过开始时间和结束时间(派生表)的并集来获得一组特定的组,关键时间ctime列表,然后将每个组和ctime的关键时刻ctime合并到表聚合中,有多少个group =并开始> = ctime并且end