Hbase表导出到Hive

问题描述

你好:)我正在准备将1个hbase表的整个数据移到hive。该表的大小非常大(500TB)

作为搜索结果,存在hbase导出,但是仅支持hbase和hbase之间的数据移动(放入hdfs的文件不是纯文本,因此hive无法立即读取它们) 此外,由于hbase是一个远程群集和各种安全策略,因此无法使用hive的hbase处理程序。

如果像Hive到Hive这样的支持INSERT INTO语法会很好,但是我正在寻找另一种方法。是否有个好方法可以用逗号分隔Hbase表的每个列并将其拖放到hdfs?

解决方法

您可以尝试使用ExportSnapshot工具将数据从Hbase移至另一个群集上的HDFS,例如,

$ hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot MySnapshot -copy-to hdfs://yourserver:8020/hbase_root_dir -mappers 16

查看this以获得更多详细信息。