问题描述
我想从从 Cloudera/EMR 迁移到 Kubernetes 的人的经验中学习。作为迁移的一部分,所有数据集都从 HDFS 迁移到 S3。假设按日期(年份或更多)分区的大型数据集有 100 多列。具体来说,Spark 作业只需要 30 列左右。
- S3 接口能否应用任何谓词过滤来避免引入所有列和分区?
- ORC/Parquet 对于这种情况,文件的哪种编码会更好。请注意,我指定了 Spark 3.0,因为两种编码现在都有布隆过滤器和谓词下推。这些过滤器适用于 HDFS,如果适用于 S3。
- 在 S3 中编写和分区这些数据集的一些技巧是什么。
- 还有什么我需要注意的问题吗?我知道这里的主要挑战是将数据传送到 K8 执行器 pod 的延迟。
- 我是否仍然需要 Hive 来创建和查询 Spark 中的数据或任何其他用途?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)