Spark 将逗号分隔的行数组拆分为第一个值和其余值

问题描述

我有一个数据集:

val raw_data = sc.parallelize(Array(
    "Batch1,i,10,j,20","Batch2,20,k,30,m,50","Batch3,n,30"
))

在进一步处理数据之前,我想将第一个条目或每一行拆分到它的列中。我试过了:

raw_data.map(x => x.split(",")).map(x=>(x(0),x))

但后来我得到:

"Batch1","Batch1,"Batch2","Batch3",30"

当我在 python 中工作时,我可以做如下索引:

x(1:)

选择第一个值之后的所有内容。 Scala 中有类似的东西吗?

raw_data.map(x => x.split(",x(1:)))

解决方法

您可以使用 headtail

raw_data.map(x => x.split(",")).map(x=>(x.head,x.tail))

此外,如果您不希望结果中出现不必要的空格,您可能希望在 "," 而不是 "," 上拆分。