数据块:dbfs:/ vs文件:/之间的区别

问题描述

我试图了解Databricks存储文件的方式,但我不确定 dbfs:/ file:/ 之间有什么区别(请参见下图) )

enter image description here

根据我从here得出的结论,文件:/似乎是通过curl / wget下载的外部文件被下载到以下文件夹路径中的区域:

%fs ls "file:/databricks/driver"

但是 file:/ 到底是什么,为什么存在,又与 dbfs:/ 有何不同?

为便于记录,我使用的是Databricks社区免费版。

解决方法

Databricks社区版托管在Amazon Web Services上。

在databricks社区版中创建集群时,在后台创建了一个虚拟机(aws ec2实例),该虚拟机在后端充当驱动程序节点以通过笔记本计算机运行程序。

集群管理服务。该服务将使用已为您设置的Spark节点启动Amazon EC2实例VM。社区版可免费使用15GB内存群集,普通版可按节点每小时收费。

%fs ls "file:/"返回在aws云后端运行的虚拟机aws ec2实例中可用的文件夹。

enter image description here

%fs ls返回Databricks文件系统(DBFS)是安装在Databricks工作区中的分布式文件系统,可在Databricks群集上使用。 DBFS是可扩展对象存储(即AWS S3存储)之上的抽象。

enter image description here