Dask列表索引超出范围从S3读取JSON文件

问题描述

我正在尝试读取存储在 S3 上的一堆 JSON 文件,但在计算 DataFrame 时引发了 list index out of range

我打开 JSON 文件调用是这样的:

pets_data = dd.read_json("s3://my-bucket/pets/*.json",Meta=Meta,blocksize=None,orient="records",lines=False)

并且当我调用 to_csv 时失败(到 S3 或本地,两者都失败)

# save on local fails
pets_data.to_csv(
        "pets-full-data.csv",single_file=True,index=False
    )
# save on S3 fails as well
pets_data.to_csv(
        "s3://my-bucket/pets-full-data.csv",index=False
    )

堆栈跟踪:

File "main.py",line 89,in <module>
pets_data.to_csv(
File "/usr/local/lib/python3.8/site-packages/dask/dataframe/core.py",line 1423,in to_csv
return to_csv(self,filename,**kwargs)
File "/usr/local/lib/python3.8/site-packages/dask/dataframe/io/csv.py",line 808,in to_csv
value = to_csv_chunk(dfs[0],first_file,**kwargs)
IndexError: list index out of range

注意:这仅在我尝试从 S3 打开文件时发生,当我从本地存储打开文件时一切正常

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)