处理来自 Azure 数据工厂中查找活动的 5000 多行

问题描述

我需要在数据工厂的另一个活动中 paas Id。Id 以 json 格式存储在 blob 存储中。 我在我的活动中使用 Look-Up 来获取数据。但是当数据超过 5000 时我的管道会失败。我需要一个解决方案。我不了解堆栈溢出的现有解决方案。

解决方法

好吧,你不能在 Cosmos 中明智地使用 OFFSET/LIMIT 分页,而且 ADF 不能使用延续标记。此外,您不能从 blob 中查找 >5000 个结果或对 blob 输出进行分页。

如果我遇到这个问题,我会基于这个想法尝试以下Azure Data Factory DYNAMICALLY partition a csv/txt file based on rowcount

  • 使用数据流从 cosmos 获取数据并使用分区写入几个 json 文件,每行
  • ForLoop 对这些 blob 进行循环
  • 有一个嵌套管道来执行查找并调用 API,就像您现在所做的一样 - 现在查找最多只有 5000 个项目