如何在pyspark中将类型从_csv.reader转换为rdd

我首先需要使用csv.reader来读取rdd文件，以删除rdd文件中的双引号。然后，我需要将csv.reader文件转换为rdd类型。我尝试使用sc.parallelize，但发现所有内容都消失了。

这是我的代码：

rdd_units = sc.textFile('file.csv')
rdd_units.take(4)

rdd_units.take（1）的输出：

['“苹果”，“香蕉”，“橙色”，“樱桃”，“蓝莓”，“猕猴桃”']

rdd_units_=csv.reader(rdd_units.collect(),delimiter=',')

rdd_units_1=sc.parallelize(rdd_units_)

rdd_units_1.take(1)

rdd_units_1的输出：[]

但是我希望rdd_units_1的输出为：['apple'，'banana'，'orange'，'cherry'，'blueBerry'，'kiwi']，但我不知道rdd_units_1为何为空。 / p>

您可以使用数据框。

{{1}}