问题描述
有人可以帮忙,如何处理此案。
PySpark代码:
from pyspark.sql import SparkSession,types
spark = SparkSession.builder.master("local").appName('read csv').getorCreate()
sc = spark.sparkContext
df = spark.read.option('delimiter',',').csv('filename')
解决方法
我遇到了类似的问题。请尝试以下,看看是否可行。请随时根据您的数据格式对代码进行更改。
'''#PySpark代码。
从pyspark.sql导入SparkSession,类型
spark = SparkSession.builder.master(“ local”)。appName('read csv')。getOrCreate()
sc = spark.sparkContext
#df = spark.read.option('delimiter',',')。csv('filename')
df = spark.read.text('filename')
header = df.first()[0]
模式= header.split('~~')
df_input = df.filter(df ['value']!=标头).rdd.map(lambda x:[0] .split('~~'))。toDF(schema) '''