Foundry数据连接中的“ S3通过Hadoop”和“ S3直接”之间有什么区别?

问题描述

Foundry Data Connection中提供的两个S3源选项有什么区别?

  • S3(通过Hadoop)
  • S3(直接)

摄取木地板文件是一种首选吗?

解决方法

通过Hadoop的S3是目前测试最好,最灵活的S3选项,但是大量文件的性能非常差。

直接使用Amazon S3 SDK从S3中读取S3 Direct,并且其性能比Hadoop好得多,因为它需要O(1)而不是O(number of files)网络调用。

我们建议尽可能使用S3-direct 源。