问题描述
我的数据如下:-
Rollno|Name|height|department
101|Aman|5"2|C.S.E
将所有列作为字符串。 当我在蜂巢中加载以上数据时,我在开始和结束时都得到了额外的报价,如下所示:- 罗尔诺:-“ 101 名称:-阿曼 高度:-5“ 2 部门:-C.S.E“ 谁能帮我解决这个问题。
解决方法
指定分隔符,例如:
val df = spark.read.option("header","true").option("inferSchema","true").option("sep","|").csv("test.csv")
df.show(false)
+------+----+------+----------+
|Rollno|Name|height|department|
+------+----+------+----------+
|101 |Aman|5"2 |C.S.E |
+------+----+------+----------+