Spark 3.0 on K8 从 S3 读取 vs Cloudera 从 HDFS 读取

问题描述

我想从从 Cloudera/EMR 迁移到 Kubernetes 的人的经验中学习。作为迁移的一部分,所有数据集都从 HDFS 迁移到 S3。假设按日期(年份或更多)分区的大型数据集有 100 多列。具体来说,Spark 作业只需​​要 30 列左右。

  1. S3 接口能否应用任何谓词过滤来避免引入所有列和分区?
  2. ORC/Parquet 对于这种情况,文件的哪种编码会更好。请注意,我指定了 Spark 3.0,因为两种编码现在都有布隆过滤器和谓词下推。这些过滤器适用于 HDFS,如果适用于 S3。
  3. 在 S3 中编写和分区这些数据集的一些技巧是什么。
  4. 还有什么我需要注意的问题吗?我知道这里的主要挑战是将数据传送到 K8 执行器 pod 的延迟。
  5. 我是否仍然需要 Hive 来创建和查询 Spark 中的数据或任何其他用途?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)