是否提供了根据Azure映射数据流中连续性对中断序列进行分组的规定

问题描述

我想使用Azure ADF映射数据流根据连续性对中断序列进行分组。

以下是blob文件示例:

enter image description here

如上所示,有一个主键列和一个包含中断序列的列,我想创建第三列(期望的输出)来对序列进行分组。

因为1,2,3是第一个序列,所以它的值为1,而9,10,11,12是下一个序列,它的值为2,依此类推。

解决方法

使用Windows转换将当前行与预览行进行比较。然后,如果有间隔,即当前序列-前一个序列>1。使用第二窗口变换来增加计数器的数量。

如果将名为source1的Source添加到新的数据流,则可以使用“脚本”按钮粘贴此代码以在后面显示脚本。添加一个换行符,最后按Enter键,然后复制/粘贴:

source1 derive(dummy = 1) ~> CreateDummyValue
CreateDummyValue window(over(dummy),asc(year,true),startRowOffset: -1L,endRowOffset: 0L,year2 = first(year)) ~> AddPreviousValue
AddPreviousValue window(over(dummy),column1 = sum(iif(abs(year-year2)<=1,1))) ~> CompareAndBucket

我正在使用我自己的电影数据中的列名,因此将列名替换为您的数据列。对您来说,电影应替换为“序列”,并且“预期输出”是我的“ Column1”。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...