问题描述
我将所有必需的实木复合地板表存储在Hadoop Filesystem中,所有这些文件都有唯一的标识路径。这些路径作为JSON推送到RabbitMQ队列中,并由使用者(在CherryPy中)使用以进行处理。成功使用后,将发送第一个路径以进行读取,并且完成前面的读取过程后,将读取随后的路径。现在要读取特定的表,我正在使用以下代码行,
data_table = parquet.read_table(path_to_the_file)
假设我在邮件中有五个阅读任务。正在执行第一个读取过程并成功读取,现在在还没有执行其他读取任务之前,我只是手动停止了服务器。此停止不会将消息执行成功确认发送到队列,因为还有四个剩余的读取进程。重新启动服务器后,整个消耗和读取过程将从初始阶段开始。现在,当在第一个路径上调用read_table方法时,它会完全卡住。
深入研究read_table方法的工作流程,我发现它实际上卡在了哪里。 但是需要进一步解释这种在hadoop文件系统中读取文件的方法。
path = 'hdfs://173.21.3.116:9000/tempDir/test_dataset.parquet'
data_table = parquet.read_table(path)
有人可以给我一张调用此方法后发生的内部实现的图片吗?这样我就可以找到问题的实际发生原因和解决方案。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)