Glue Crawler可以爬取deltalake文件以在AWS胶目录中创建表吗？

问题描述

我们有一个现有的基础架构，正在通过AWS爬网程序来爬网S3目录。这些S3目录是作为AWS datalake的一部分创建的，并通过spark作业转储。现在，为了实现增量功能，我们在deltalake上进行了POC。因此，当我通过spark-delta Jobs在S3中编写这些deltalake文件时，我的搜寻器无法从这些搜寻器创建表。

我们可以使用AWS搜寻器来搜寻delta lake文件吗？

解决方法

根据此doc，您不应该使用Glue搜寻器。您应该将清单文件用于Athena的integrate增量文件中。

警告

请勿在以下位置使用AWS Glue Crawler：在AWS Glue中定义表。三角洲湖维护相应的文件到表的多个版本，并查询所有已爬网的文件会产生不正确的结果。

apache-spark aws-glue aws-glue-data-catalog data-lake delta-lake