在 Spark Scala 中将 RDD[(String, String, String)] 转换为 RDD[(String, (String, String))]

问题描述

有 2 个 rdds ，我正在尝试加入：当每个 rdd 中有 2 个参数时，它就会加入，但是当我在现有 GTIN rdd 中添加一个新参数时，我面临以下错误：

代码如下：

newGTS.collect()
(00070137115045,00070137115045)
(00799999150451,00799999150451)

existingGTS.collect()
(00799999150451,(00003306-808b-46da-bc7f-419c5ae223a7,2016-10-10 10:23:12.0))
(00016700000653,(00006d79-94ea-4651-be0c-0ce77958cd45,2021-05-31 01:20:39.291))
(00923846453024,(0000704b-b40d-4b9e-b266-f7c66723df0e,null))
(00610074049265,(0000a7a1-587c-4b13-a155-7846df82fdee,2020-03-20 12:16:55.873))
(00034100516079,(0002495f-6084-49dd-aadb-20cd137d9694,null))


val join1 = newGTINs.leftOuterJoin(existingGTINs) mapValues {
      case (gtin,iUUID,createDt) => (iUUID.isEmpty,iUUID.getorElse(UUID.randomUUID.toString))
    }


 error: constructor cannot be instantiated to expected type;
 found   : (T1,T2,T3)
 required: (String,Option[(String,String)])
                 case (gtin,iUUID.getorElse(UUID.randomUUID.toString))
                      ^

PS: UUID.randomUUID.toString --> 这个函数是创建一个随机id

解决方法

我猜想在 join 中使用的 newGTINs 和 existingGTINs 应该与集合中显示的 newGTS 和 existingGTS 相同。

由于您的 newGTSINs 看起来是 RDD[(String,String)]，而 existingGTINS 是 RDD[(String,(String,String))]，因此您的 newGTINs.leftOuterJoin(existingGTINs) 将是 RDD[(String,Option[(String,String)]))]。>

这意味着您的 mapValues 将需要一个函数 (String,String)]) => SomeNewType 或作为参数。它也可以接受满足相似类型语义的偏函数。

但是您的 { case (gtin,iUUID,createDt) => (iUUID.isEmpty,iUUID.getOrElse(UUID.randomUUID.toString)) } 是对应于 (String,String,String) => SomeNewType 类型的偏函数。

注意差异，因此是错误。您可以通过提供适当的部分函数来满足 mapValues 要求来解决此问题。

val join1 = 
  newGTINs
    .leftOuterJoin(existingGTINs)
    .mapValues {
      case (gtin,Some(iUUID,createDt)) =>
        (iUUID.isEmpty,iUUID.getOrElse(UUID.randomUUID.toString))
      case (gtin,None) =>
        // what heppens for gtins without matching element in existing one's
        (true,UUID.randomUUID.toString)
    }

apache-spark bigdata rdd scala scala