与直接连接到数据库和检索数据相比，搜寻器有何优势？

问题描述

在AWS glue作业中，为了从DB或S3检索数据，我们可以使用两种方法。 1）使用Crawler 2）使用直接连接到DB或S3。

因此，我的问题是：与直接连接到数据库并检索数据相比，爬网程序有何优势？

解决方法

AWS Glue Crawlers将不会检索实际数据。抓取工具访问您的数据存储，并按优先级排序分类列表进行操作，以提取数据的架构和其他统计信息，然后使用此元数据填充胶水数据目录。可以将爬网程序安排为定期运行，以检测新数据的可用性以及对现有数据的更改，包括数据爬网程序对表定义所做的更改。抓取工具会自动向现有表中添加新表，新分区以及表定义的新版本。

AWS Glue数据目录成为之间的通用元数据存储库 Amazon Athena，Amazon Redshift Spectrum，Amazon S3。 AWS胶水爬行器帮助构建此元数据存储库。

amazon-web-services aws-glue hive-metastore