如何在火花上使用双定界符从文件中读取数据

问题描述

有人可以帮忙,如何处理此案。

PySpark代码

from pyspark.sql import SparkSession,types

spark = SparkSession.builder.master("local").appName('read csv').getorCreate()
sc = spark.sparkContext
df = spark.read.option('delimiter',',').csv('filename')

错误错误超过1个字符。

解决方法

我遇到了类似的问题。请尝试以下,看看是否可行。请随时根据您的数据格式对代码进行更改。

'''#PySpark代码。

从pyspark.sql导入SparkSession,类型

spark = SparkSession.builder.master(“ local”)。appName('read csv')。getOrCreate()

sc = spark.sparkContext

#df = spark.read.option('delimiter',',')。csv('filename')

df = spark.read.text('filename')

header = df.first()[0]

模式= header.split('~~')

df_input = df.filter(df ['value']!=标头).rdd.map(lambda x:[0] .split('~~'))。toDF(schema) '''