如果在移动表之前移动 Hive 表数据文件,会发生什么情况?

问题描述

我正在尝试将表的位置移动到新目录。假设原始位置是 /data/dir。例如,我正在尝试这样的事情:

hadoop fs -mkdir /data/dir_bkp
hadoop fs -mv /data/dir/* /data/dir_bkp

然后我执行 hive 命令,例如:

ALTER TABLE db.mytable RENAME TO db.mytable_bkp;
ALTER TABLE db.mytable_bkp SET LOCATION /data/dir_bkp;

在改变表的位置之前移动目录文件可以吗?运行这些命令后,表 mytable_bkp 是否会像以前一样填充?

解决方法

执行 mv 命令后,您的原始表将变为空。因为 mv 删除了数据文件。

重命名表后,它是空的,因为它的位置是空的。

执行 ALTER TABLE SET LOCATION 后 - 表为空,因为分区已安装到旧位置(现在为空)。抱歉之前在此步骤中误导了您。重命名表后,分区保持重命名前的状态。每个分区通常可以在表位置之外拥有自己的位置。

如果 table 是 MANAGED,请将其设置为 EXTERNAL:

alter table table_name SET TBLPROPERTIES('EXTERNAL'='TRUE'); 

现在删除表+使用新位置创建表并运行MSCK来创建分区:

MSCK [REPAIR] TABLE tablename;

如果您使用的是 Amazon EMR,请运行 ALTER TABLE tablename RECOVER PARTITIONS; 而不是 MSCK