在数据工厂中创建 Azure Batch 活动

问题描述

我想在我的数据工厂管道中创建一个 Azure Batch 活动,我设置了一个触发器来检查过去 24 小时内是否有新的“上次修改”的 blob。
在处理大文件时,我想在同一台机器上同时利用 Azure Batch 和多进程 2 blob 的强大功能
这是我到目前为止所做的管道:

enter image description here


第二个活动通过创建 {container name}/{blob} 的列表变量来操作前一个活动的输出
如何将我的 blob 地址分成小批量,以便我可以将它们提供给下一个批处理活动?
谢谢

解决方法

默认情况下,“ForEach”活动并行运行,因此默认情况下它将启动至少 20 个线程,最多 50 个线程,具体取决于您的输入进程。确保 ForEach 上的“顺序”框未选中

ForEach in parallel mode

如果您需要分成更大的组,例如每批 3 个,每批 5 个,那么这可能会有点棘手,我会寻找例如存储过程活动、Databricks 笔记本或 Synapse Notebook 来稍微做到这一点对我来说更复杂的工作。