是否可以忽略Spark中失败的任务

问题描述

我有一些大型数据集，其中一些记录导致UDF崩溃。一旦处理了此类记录，任务将失败，从而导致作业失败。这里的问题是本机的（我们在JNA中使用本机的fortran库），所以我无法在UDF中捕获它们。

我想要的是一种容错机制，该机制允许我跳过/插入/将不良分区/任务列入黑名单，以使我的spark-app不会失败。

有没有办法做到这一点？

我唯一能想到的就是在foreach循环中处理小块数据：

val dataFilters: Seq[Column] = ???
val myUDF: UserDefinedFunction = ???

dataFilters.foreach(filter =>
  try {
    ss.table("sourcetable")
      .where(filter)
      .withColumn("udf_result",myUDF($"inputcol"))
      .write.insertInto("targettable")
  }

这不是理想的，因为没有火花。处理少量数据的速度很慢。例如。输入表被读取多次

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark fault-tolerance