如何在火花上使用双定界符从文件中读取数据

问题描述

有人可以帮忙，如何处理此案。

PySpark代码：

from pyspark.sql import SparkSession,types

spark = SparkSession.builder.master("local").appName('read csv').getorCreate()
sc = spark.sparkContext
df = spark.read.option('delimiter',',').csv('filename')

＃错误：错误超过1个字符。

解决方法

我遇到了类似的问题。请尝试以下，看看是否可行。请随时根据您的数据格式对代码进行更改。

'''＃PySpark代码。

从pyspark.sql导入SparkSession，类型

spark = SparkSession.builder.master（“ local”）。appName（'read csv'）。getOrCreate（）

sc = spark.sparkContext

#df = spark.read.option（'delimiter'，'，'）。csv（'filename'）

df = spark.read.text（'filename'）

header = df.first（）[0]

模式= header.split（'~~'）

df_input = df.filter（df ['value']！=标头）.rdd.map（lambda x：[0] .split（'~~'））。toDF（schema） '''

apache-spark delimiter delimiter pyspark pyspark