问题描述
我按照以下说明启用了 Spark UI 的 AWS 粘合作业:Enabling the Spark UI for Jobs
粘合作业具有 s3:* 访问 arn:aws:s3::::my-spark-event-bucket/* 资源的权限。但出于某种原因,当我运行胶水作业(并在 40-50 秒内成功完成并成功生成输出镶木地板文件)时,它不会向目标 s3 路径生成任何火花事件日志。我想知道哪里出了问题,是否有任何系统的方法可以让我查明根本原因。
解决方法
您的 Glue 作业运行了多长时间?
我发现执行时间短(不到 1 分钟或大约 1 分钟)的作业无法在 S3 中可靠地生成 Spark UI 日志。
AWS 文档指出“每隔 30 秒,AWS Glue 会将 Spark 事件日志刷新到您指定的 Amazon S3 路径。”短作业不生成 Spark UI 日志的原因可能与某些原因有关做这个。
如果您的作业执行时间较短,请尝试向作业添加额外的步骤,甚至暂停/等待以延长执行时间。这应该有助于确保将 Spark UI 日志发送到 S3。