Azure数据流

问题描述

我需要定期用新数据更新现有的30多个CSV文件集(追加到末尾)。还需要在将Y行添加到末尾时删除前X行。

我是否为此使用了正确的服务,并且使用了正确的方式?

  • Azure Blob存储用于存储现有文件和更新文件。

  • 将DataFactory与DataFlows结合使用。我想要转换的CSV的PipeLine和DataFlow可以进行数据集的合并(现有+更新),生成 下沉文件集,将新组合的CSV放回Blob 存储。

  • Blob存储更新目录上的触发器,用于在上传新的更新文件时触发管道。

问题:

  • 这是解决此问题的最佳方法吗,我需要一个用户输入最少的解决方案(只要他们要做的就是上传文件并下载新文件,我就会照顾Azure操作)
  • 每个CSV文件是否需要管道和数据流?或者我可以为每种转换类型设置一种(即,一种仅用于附加,另一种用于附加和删除前X行)
  • 我打算在blob存储中为每个CSV(30多个Dirs)创建一个目录,并为每个现有目录和更新文件创建一个数据集。
  • 然后为每个输出文件创建一个数据集到一些new /目录中

解决方法

根据CSV的大小,您可以通过将新数据以及现有CSV文件都作为源在数据流内部执行追加操作,然后将这两个文件合并在一起以创建一个新文件文件。

或者,对于较大的文件,请使用“复制活动”“合并文件”设置将两个文件合并在一起。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...