如何在Spark中将数据框保存在CSV中时删除列名中的双引号？

问题描述

我正在将spark数据帧保存到csv文件中。所有记录都用双引号保存，这很好，但列名也用双引号保存。您能帮我如何删除它们吗？

示例：

"Source_System"|"Date"|"Market_Volume"|"Volume_Units"|"Market_Value"|"Value_Currency"|"Sales_Channel"|"Competitor_Name"
"ims"|"20080628"|"183.0"|"16470.0"|"165653.256349"|"AUD"|"AUSTRALIA HOSPITAL"|"PFIZER"

理想的输出：

Source_System|Date|Market_Volume|Volume_Units|Market_Value|Value_Currency|Sales_Channel|Competitor_Name
"ims"|"20080628"|"183.0"|"16470.0"|"165653.256349"|"AUD"|"AUSTRALIA HOSPITAL"|"PFIZER"

我正在使用以下代码：

df4.repartition(1).write.csv(Output_Path_ASPAC,quote='"',header=True,quoteall=True,sep='|',mode='overwrite')

解决方法

我认为，唯一的解决方法是对数据帧values中列before writing to csv的连引号。

Example:

df.show()
#+---+----+------+
#| id|name|salary|
#+---+----+------+
#|  1|   a|   100|
#+---+----+------+

from pyspark.sql.functions import col,concat,lit

cols = [concat(lit('"'),col(i),lit('"')).alias(i) for i in df.columns]
df1=df.select(*cols)

df1.show()
#+---+----+------+
#| id|name|salary|
#+---+----+------+
#|"1"| "a"| "100"|
#+---+----+------+

df1.\
write.\
csv("<path>",header=True,sep='|',escape='',quote='',mode='overwrite')

#output
#cat tmp4/part*
#id|name|salary
#"1"|"a"|"100"

apache-spark csv csv dataframe pyspark