资源暂时不可用在 MPI4PY 环境中使用 PyArrow 读取 Parquet 文件的行组时出错

问题描述

我有一个包含 6 个行组的镶木地板文件。我能够使用前 6 个 (Graphics2D) 进程（等级）读取 6 个行组。但是，当进程（排名）#6 及以后尝试再次读取行组时，它会抛出错误。

我读取了 0-5 的行组如下：

file_name

idx = convert_rank_to_idx(rank) parquet_file = pq.ParquetFile(file_name) rowgroup = parquet_file.read_row_group(idx) 将排名编号转换为行组索引（即 0 到 5）。例如，rank 6 应再次读取行组 0（已被 rank 0 读取一次）和 rank 7 行组 1（已被 rank 1 读取一次）等等。

这是错误：

convert_rank_to_idx(rank)

我想知道是否有人以前遇到过这个问题，或者可能有一些建议或解决方案。 Pyarrow 读取函数内部是否发生了一些阻塞？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

mpi mpi4py parquet pyarrow python-3.x