在将熊猫数据框另存为csv的同时,如何在Datalake第1代内部创建一个文件夹?

问题描述

我是Databricks的新手,基本上我正在尝试将pandas数据框保存到datalake存储器中。

已安装Datalake

因此,当我将文件保存到已经创建的文件夹中时,它可以很好地工作,但是当我尝试将csv文件保存到尚未创建的文件夹中但仍无法正常工作并抛出该文件夹不存在的错误时。我当时的假设是,如果给出的路径不存在,它会自行创建文件夹。

示例-创建文件夹直到快照,所以如果我尝试以下代码效果很好

df.to_csv("/dbfs/mnt/test/snapshot/test.csv",index=False)

但是当我尝试将其保存在尚未创建的文件夹中时,会引发错误

df.to_csv("/dbfs/mnt/test/snapshot/2020/08/27/test.csv",index=False)

有没有一种方法可以通过代码来实现,而不必手动创建文件夹。

提前谢谢

解决方法

您可以使用dbutils.fs.mkdirs()预先创建文件夹:

dbutils.fs.mkdirs("/mnt/test/snapshot/2020/08/27")
df.to_csv("/dbfs/mnt/test/snapshot/2020/08/27/test.csv",index=False)