azure 数据工厂 v2 从具有不同文件名和结构的数据湖中摄取文件

问题描述

我的任务是从数据湖存储中提取平面文件。

它们是多个文件，将存储在同一个逻辑文件夹中。这些文件的内容和结构是不同的。每次添加一个与前一个结构相同的新文件时，文件名都会不同。例如。

filename_1.csv

col1,col2,col3

下次上传同一个文件不同数据时，可以调用

january_new-data-1.csv

我已经为每个文件创建了接收器表。

如何创建 adF 管道以动态摄取这些文件？甚至有可能吗？

我想这些文件需要先分到各自的逻辑文件夹中，是吗？

解决方法

是的，我们可以动态摄取这些文件。这些文件不需要先分离到它们自己的逻辑文件夹中。我创建了一个简单的测试。通过一个管道根据文件中的列数复制到不同的表。
我创建了两个表，一个有 3 列，另一个有 4 列：

CREATE TABLE [dbo].[emp_stage](
    [id] [int] NULL,[name] [nvarchar](max) NULL,[age] [nvarchar](max) NULL
)

CREATE TABLE [dbo].[Entities](
    [id] [int] NULL,[name] [varchar](25) NULL,[age] [int] NULL,[city] [varchar](100) NULL
)

在 ADF 中，我们可以通过 Switch 活动判断不同列的数量来执行不同的复制活动。

我的数据湖“输入”容器中有两个 csv 文件。 emp.csv 包含 3 列，其对应的表名是 [dbo].[emp_stage]。 january_new-data-1.csv 包含 4 列，其对应的表名是 [dbo].[Entities]。
所以我创建了一个数据集来“输入”容器。添加动态内容 *.csv 并选择 First row as header。
使用 Get MetaData1 活动获取子项。子项如下：
使用Foreach1活动，添加动态内容@activity('Get Metadata1').output.childItems。
在 Foreach1 活动中，我们可以创建数据集并键入动态内容 @item().name。我们可以将文件名动态传递给 Get Metadata2 活动。这样我们就可以动态指定容器中的一个文件。
使用Switch1活动，添加表达式@string(activity('Get Metadata2').output.columnCount)将Get Metadata2活动的输出转换为字符串类型。 Get Metadata2 活动将获取指定文件的列数。
我会在这里得到两个案例，“3”和“4”。所以默认是'3'，我们会去Copy activity1。
当情况为“4”时，我们将转到 Copy activity2。 Copy activity1 和 Copy activity2 使用相同的数据源。我们之前在第 5 步定义的这个数据源。它们下沉到不同的表。
调试后，我可以在我的表格中看到结果。

azure-data-factory-2 azure-pipelines data-ingestion flat-file