如何从 hive 外部表的基本路径中摄取德鲁伊中的兽人?

问题描述

我有一个指向 location = "hdfs://localhost:8020/sample/path/" 的 hive 外部表 这里 /sample/path 包含各种分区,如

/sample/path/cola=123/colb=456
/sample/path/cola=324/colb=432
/sample/path/cola=322/colb=234

我尝试使用 index_parallel 将数据摄取到 apache druid 中,同时我不得不提到完整的分区目录直到叶级:

"paths":"/sample/path/cola=123/colb=456,/sample/path/cola=324/colb=432,/sample/path/cola=322/colb=234"

这些分区列的值一旦被摄取到德鲁伊中就会丢失

问题:有什么方法可以指定基本路径并在数据摄取后保留分区列的值?

解决方法

恐怕不行。您正在摄取文件,它们根本不包含分区列的值。要摄取此数据,您必须将表中的列两次,一次作为分区列,另一次作为常规列。