问题描述
我正在尝试打开一个 hive-partitioned parquet,它本质上是一个嵌套目录,在底层有许多小的 parquet 片段。使用 Python 时(使用 pyarrow
),我可以在名称末尾带有 .parquet 的顶级目录中使用 read_table
,一切都会自动处理。如果我只在 C++ 中处理单个文件,我可以使用 std::shared_ptr<arrow::io::ReadableFile>
实例从中读取,但当然它不适用于目录。
基本上,我想找到一组工具,起点标记为?如下:
Python:
打开单个文件 -> pyarrow.parquet.read_table
打开目录(分区数据集) -> pyarrow.parquet.ParquetDataset
C++:
打开单个文件 -> std::shared_ptr<arrow::io::ReadableFile>
打开目录(分区数据集) -> ?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)