问题描述
我首先需要使用csv.reader来读取rdd文件,以删除rdd文件中的双引号。然后,我需要将csv.reader文件转换为rdd类型。我尝试使用sc.parallelize,但发现所有内容都消失了。
这是我的代码:
rdd_units = sc.textFile('file.csv')
rdd_units.take(4)
rdd_units.take(1)的输出:
['“苹果”,“香蕉”,“橙色”,“樱桃”,“蓝莓”,“猕猴桃”']
rdd_units_=csv.reader(rdd_units.collect(),delimiter=',')
rdd_units_1=sc.parallelize(rdd_units_)
rdd_units_1.take(1)
rdd_units_1的输出:[]
但是我希望rdd_units_1的输出为:['apple','banana','orange','cherry','blueBerry','kiwi'],但我不知道rdd_units_1为何为空。 / p>
解决方法
您可以使用数据框。
{{1}}