问题描述
在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用两种方法。 1)使用Crawler 2)使用直接连接到DB或S3。
因此,我的问题是:与直接连接到数据库并检索数据相比,爬网程序有何优势?
解决方法
AWS Glue Crawlers将不会检索实际数据。抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充胶水数据目录。可以将爬网程序安排为定期运行,以检测新数据的可用性以及对现有数据的更改,包括数据爬网程序对表定义所做的更改。抓取工具会自动向现有表中添加新表,新分区以及表定义的新版本。
AWS Glue数据目录成为之间的通用元数据存储库 Amazon Athena,Amazon Redshift Spectrum,Amazon S3。 AWS胶水爬行器 帮助构建此元数据存储库。