问题描述
我在S3存储桶的目录中有CSV文件。我想在Dremio中将所有文件用作一个表,只要每个文件都具有与其他文件相同的标题/列,我认为这是可能的。
我是否需要先使用UI添加一个Amazon S3 data source,还是可以使用Source API以某种方式将其添加为Catalog? (我更喜欢后者。)REST api文档没有提供有关如何执行此操作的清晰示例(或者我只是没有得到它),而且我一直找不到如何获得“ New Amazon”。文档中显示的“ S3 Source”配置屏幕,也许是因为我尚未以管理员身份登录?
例如,假设我在一个名为examplebucket
的目录中的一个名为datadir
的S3存储桶中划分了两个CSV文件的数据集:
s3://examplebucket/datadir/part_0.csv
s3://examplebucket/datadir/part_1.csv
我是否以某种方式将S3存储桶/路径s3://examplebucket/datadir
设置为数据源,然后将其中包含的每个文件(part_0.csv
和part_1.csv
)提升为Dataset ?这足以允许所有文件用作单个表吗?
解决方法
事实证明,这仅适用于管理员用户,普通用户无法添加源。要执行我上面建议的操作,请将文件放入S3存储桶,该存储桶已由管理员用户配置为Dremio源。然后,您可以使用Dremio Catalog API将文件或文件夹提升为数据源。