需要解释pyarrow.parquet中read_table方法的内部工作

问题描述

我将所有必需的实木复合地板表存储在Hadoop Filesystem中,所有这些文件都有唯一的标识路径。这些路径作为JSON推送到RabbitMQ队列中,并由使用者(在CherryPy中)使用以进行处理。成功使用后,将发送第一个路径以进行读取,并且完成前面的读取过程后,将读取随后的路径。现在要读取特定的表,我正在使用以下代码行,

data_table = parquet.read_table(path_to_the_file)

假设我在邮件中有五个阅读任务。正在执行第一个读取过程并成功读取,现在在还没有执行其他读取任务之前,我只是手动停止了服务器。此停止不会将消息执行成功确认发送到队列,因为还有四个剩余的读取进程。重新启动服务器后,整个消耗和读取过程将从初始阶段开始。现在,当在第一个路径上调用read_table方法时,它会完全卡住。

深入研究read_table方法的工作流程,我发现它实际上卡在了哪里。 但是需要进一步解释这种在hadoop文件系统中读取文件方法

path = 'hdfs://173.21.3.116:9000/tempDir/test_dataset.parquet' 
data_table = parquet.read_table(path)

有人可以给我一张调用方法后发生的内部实现的图片吗?这样我就可以找到问题的实际发生原因和解决方案。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)