问题描述
从分区的文件源开始创建外部表时,找不到用于处理文件元数据的任何引用。更准确地说:我有一组分区的镶木地板文件。分区策略的形式为:
{YEAR}/{MONTH}/{filename}.parquet
现在,我可以使用指向分区根的LOCATION
并使用递归策略来创建一个引用整个集合的外部表。
LOCATION ='folder_or_filepath'指定文件夹或文件路径 和Hadoop或Azure blob存储中实际数据的文件名。的 位置从根文件夹开始。根文件夹是数据 外部数据源中指定的位置。
在这种情况下,至关重要的是能够访问诸如{YEAR}
,{MONTH}
或{filename}
之类的分区元数据并将其作为列存储到新创建的外部表中以供进一步使用
根据我的研究,访问文件元数据现在似乎是缺少的功能。但是我不确定。 可以肯定的是,不可能在这里证明使用PARTITION BY功能:
是否有一些缓解策略?我将要建立一个数据工厂映射数据流,它将完成肮脏的工作。但是我仍然不确定这两个选项:
- 将分区集简化为一个文件,在每行上添加元数据列;
- 只需在每个文件上添加元数据列,然后离开分区层次结构;
- 奖金:有什么建议吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)