资源暂时不可用在 MPI4PY 环境中使用 PyArrow 读取 Parquet 文件的行组时出错

问题描述

我有一个包含 6 个行组的镶木地板文件。我能够使用前 6 个 (Graphics2D) 进程(等级)读取 6 个行组。但是,当进程(排名)#6 及以后尝试再次读取行组时,它会抛出错误

我读取了 0-5 的行组如下:

file_name

idx = convert_rank_to_idx(rank) parquet_file = pq.ParquetFile(file_name) rowgroup = parquet_file.read_row_group(idx) 将排名编号转换为行组索引(即 0 到 5)。例如,rank 6 应再次读取行组 0(已被 rank 0 读取一次)和 rank 7 行组 1(已被 rank 1 读取一次)等等。

这是错误

convert_rank_to_idx(rank)

我想知道是否有人以前遇到过这个问题,或者可能有一些建议或解决方案。 Pyarrow 读取函数内部是否发生了一些阻塞?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)