Spark 3.0 on K8 从 S3 读取 vs Cloudera 从 HDFS 读取

我想从从 Cloudera/EMR 迁移到 Kubernetes 的人的经验中学习。作为迁移的一部分，所有数据集都从 HDFS 迁移到 S3。假设按日期（年份或更多）分区的大型数据集有 100 多列。具体来说，Spark 作业只需要 30 列左右。

S3 接口能否应用任何谓词过滤来避免引入所有列和分区？
ORC/Parquet 对于这种情况，文件的哪种编码会更好。请注意，我指定了 Spark 3.0，因为两种编码现在都有布隆过滤器和谓词下推。这些过滤器适用于 HDFS，如果适用于 S3。
在 S3 中编写和分区这些数据集的一些技巧是什么。
还有什么我需要注意的问题吗？我知道这里的主要挑战是将数据传送到 K8 执行器 pod 的延迟。
我是否仍然需要 Hive 来创建和查询 Spark 中的数据或任何其他用途？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）