如何在pyspark中将类型从_csv.reader转换为rdd

问题描述

我首先需要使用csv.reader来读取rdd文件,以删除rdd文件中的双引号。然后,我需要将csv.reader文件转换为rdd类型。我尝试使用sc.parallelize,但发现所有内容都消失了。

这是我的代码

rdd_units = sc.textFile('file.csv')
rdd_units.take(4)

rdd_units.take(1)的输出

['“苹果”,“香蕉”,“橙色”,“樱桃”,“蓝莓”,“猕猴桃”']

rdd_units_=csv.reader(rdd_units.collect(),delimiter=',')

rdd_units_1=sc.parallelize(rdd_units_)

rdd_units_1.take(1)

rdd_units_1的输出:[]

但是我希望rdd_units_1的输出为:['apple','banana','orange','cherry','blueBerry','kiwi'],但我不知道rdd_units_1为何为空。 / p>

解决方法

您可以使用数据框。

{{1}}