在Amazon EMR的Hue中存储的文件在哪里

问题描述

如果我转到http://ec2-****:8888/hue/home/处的色相链接,则可以访问色相仪表板并创建和保存文件等。但是,在使用SSH浏览系统时,我看不到那些文件。这些文件存储在系统中的什么位置?

enter image description here

解决方法

这不是它的工作方式Alex,您无法在文件系统中看到该信息。

色相为您提供了底层Hadoop分布式文件系统(HDFS)的视图。

此文件系统中的信息分布在Hadoop集群中的多个节点上。

如果需要在该文件系统中查找某些内容,则不能使用操作系统提供的典型文件操作工具,而只能使用Hadoop对应的工具。

对于您的用例,Hadoop为您提供了hdfs dfs命令或等效的hadoop fs

假设您要在Hadoop文件系统中找到test1.sql。在节点中使用ssh后,您可以发出以下命令:

hadoop fs -ls -R / | grep test1.sql

或者:

hadoop fs -find / -name test1.sql

请查看可用选项中的complete reference

通过执行以下命令,您可以将文件检索到本地文件系统(一旦被前面的命令定位):

hadoop fs -get /path/to/test1.sql test1.sql

此操作也可以通过“色相文件浏览器”完成。

在Amazon EMR的特定情况下,此分布式文件系统基本上可以由不同的storage systems支持,即用于临时工作负载的HDFS,以及可以通过S3实现HDFS的EMRFS:

EMRFS是Hadoop文件系统的一种实现,用于从Amazon EMR直接将常规文件读写到Amazon S3。