问题描述
如果我转到http://ec2-****:8888/hue/home/
处的色相链接,则可以访问色相仪表板并创建和保存文件等。但是,在使用SSH浏览系统时,我看不到那些文件。这些文件存储在系统中的什么位置?
解决方法
这不是它的工作方式Alex,您无法在文件系统中看到该信息。
色相为您提供了底层Hadoop分布式文件系统(HDFS)的视图。
此文件系统中的信息分布在Hadoop集群中的多个节点上。
如果需要在该文件系统中查找某些内容,则不能使用操作系统提供的典型文件操作工具,而只能使用Hadoop对应的工具。
对于您的用例,Hadoop为您提供了hdfs dfs
命令或等效的hadoop fs
。
假设您要在Hadoop文件系统中找到test1.sql
。在节点中使用ssh后,您可以发出以下命令:
hadoop fs -ls -R / | grep test1.sql
或者:
hadoop fs -find / -name test1.sql
请查看可用选项中的complete reference。
通过执行以下命令,您可以将文件检索到本地文件系统(一旦被前面的命令定位):
hadoop fs -get /path/to/test1.sql test1.sql
此操作也可以通过“色相文件浏览器”完成。
在Amazon EMR的特定情况下,此分布式文件系统基本上可以由不同的storage systems支持,即用于临时工作负载的HDFS,以及可以通过S3实现HDFS的EMRFS:
EMRFS是Hadoop文件系统的一种实现,用于从Amazon EMR直接将常规文件读写到Amazon S3。