与直接连接到数据库和检索数据相比,搜寻器有何优势?

问题描述

在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用两种方法。 1)使用Crawler 2)使用直接连接到DB或S3。

因此,我的问题是:与直接连接到数据库并检索数据相比,爬网程序有何优势?

解决方法

AWS Glue Crawlers将不会检索实际数据。抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充胶水数据目录。可以将爬网程序安排为定期运行,以检测新数据的可用性以及对现有数据的更改,包括数据爬网程序对表定义所做的更改。抓取工具会自动向现有表中添加新表,新分区以及表定义的新版本。

AWS Glue数据目录成为之间的通用元数据存储库 Amazon Athena,Amazon Redshift Spectrum,Amazon S3。 AWS胶水爬行器 帮助构建此元数据存储库。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...