Kudu的insertIgnorerows方法仅在spark中使用一个任务

问题描述

我第一次在Spark Scala中使用kudu。我使用spark在kudu的表中插入数据并检查其性能,我使用了1M条记录。以下是spark的详细信息:- 火花版本:-1.6 Kudu版本:-1.5.0-cdh5.13.0 总核心数:-16 执行者:-3 每个执行者的核心:-4

现在,从Spark UI中我看不到。为每个动作创建的任务。一切都很好并且处于分布式模式,但是在将数据插入KUDU表中时,它仅使用1个任务。正如我在kudu内部实现中看到的那样,它使用foreachpartition以及kudu sync spark分区和表分区。现在,我很困惑,因为在创建表时我使用了按哈希分区,例如:-按分区(按月)(月)分区4。因此,即使kudu将spark分区与kudu表分区进行同步,它也应该使用4任务,为什么只使用4 1项任务。并且由于火花作业的这种性能降低。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)