需要解释pyarrow.parquet中read_table方法的内部工作

问题描述

我将所有必需的实木复合地板表存储在Hadoop Filesystem中，所有这些文件都有唯一的标识路径。这些路径作为JSON推送到RabbitMQ队列中，并由使用者（在CherryPy中）使用以进行处理。成功使用后，将发送第一个路径以进行读取，并且完成前面的读取过程后，将读取随后的路径。现在要读取特定的表，我正在使用以下代码行，

data_table = parquet.read_table(path_to_the_file)

假设我在邮件中有五个阅读任务。正在执行第一个读取过程并成功读取，现在在还没有执行其他读取任务之前，我只是手动停止了服务器。此停止不会将消息执行成功确认发送到队列，因为还有四个剩余的读取进程。重新启动服务器后，整个消耗和读取过程将从初始阶段开始。现在，当在第一个路径上调用read_table方法时，它会完全卡住。

深入研究read_table方法的工作流程，我发现它实际上卡在了哪里。但是需要进一步解释这种在hadoop文件系统中读取文件的方法。

path = 'hdfs://173.21.3.116:9000/tempDir/test_dataset.parquet' 
data_table = parquet.read_table(path)

有人可以给我一张调用此方法后发生的内部实现的图片吗？这样我就可以找到问题的实际发生原因和解决方案。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-arrow parquet pyarrow