Kudu的insertIgnorerows方法仅在spark中使用一个任务

问题描述

我第一次在Spark Scala中使用kudu。我使用spark在kudu的表中插入数据并检查其性能，我使用了1M条记录。以下是spark的详细信息：- 火花版本：-1.6 Kudu版本：-1.5.0-cdh5.13.0 总核心数：-16 执行者：-3 每个执行者的核心：-4

现在，从Spark UI中我看不到。为每个动作创建的任务。一切都很好并且处于分布式模式，但是在将数据插入KUDU表中时，它仅使用1个任务。正如我在kudu内部实现中看到的那样，它使用foreachpartition以及kudu sync spark分区和表分区。现在，我很困惑，因为在创建表时我使用了按哈希分区，例如：-按分区（按月）（月）分区4。因此，即使kudu将spark分区与kudu表分区进行同步，它也应该使用4任务，为什么只使用4 1项任务。并且由于火花作业的这种性能降低。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-kudu apache-spark apache-spark-sql scala