问题描述
我正在尝试将数据框映射到元组的RDD,在某种程度上它可以正常工作,但是只要我添加更多row.getAs,它就会突然返回RDD[nothing]
。
例如
df.rdd.map(row => {
(row.getAs[Long]("created_at"),row.getAs[String]("elem1"),row.getAs[String]("elem2"),row.getAs[String]("elem3"),row.getAs[String]("elem4"),row.getAs[String]("elem5"),row.getAs[String]("elem6"),row.getAs[String]("elem7"),row.getAs[String]("elem8"),row.getAs[String]("elem9"),row.getAs[String]("elem10"),row.getAs[String]("elem11"),row.getAs[String]("elem12"),row.getAs[String]("elem13"),row.getAs[String]("elem14"),row.getAs[String]("elem15"),row.getAs[String]("elem16"),row.getAs[String]("elem17"),row.getAs[String]("elem18"),row.getAs[String]("elem19"),row.getAs[String]("elem20"),row.getAs[String]("elem21"))
})
返回RDD[(Long,String,String)]
然后我可以像.groupBy(x => x._1)
但是在这种情况下,我立即添加了另一个row.getAs[String]
row.getAs[String]("elem22")
它将返回df.rdd.map(row => {
(row.getAs[Long]("created_at"),row.getAs[String]("elem21"),row.getAs[String]("elem22"))
})
,并且不让我致电RDD[nothing]
并遵守相关规定
无法解析symbol_1
我在文档中找不到任何有关映射时的限制的信息。我在这里做错什么了吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)