问题描述
Foundry Data Connection中提供的两个S3源选项有什么区别?
- S3(通过Hadoop)
- S3(直接)
摄取木地板文件是一种首选吗?
解决方法
通过Hadoop的S3是目前测试最好,最灵活的S3选项,但是大量文件的性能非常差。
直接使用Amazon S3 SDK从S3中读取S3 Direct,并且其性能比Hadoop好得多,因为它需要O(1)
而不是O(number of files)
网络调用。
我们建议尽可能使用S3-direct 源。
Foundry Data Connection中提供的两个S3源选项有什么区别?
摄取木地板文件是一种首选吗?
通过Hadoop的S3是目前测试最好,最灵活的S3选项,但是大量文件的性能非常差。
直接使用Amazon S3 SDK从S3中读取S3 Direct,并且其性能比Hadoop好得多,因为它需要O(1)
而不是O(number of files)
网络调用。
我们建议尽可能使用S3-direct 源。