Mapreduce 程序输出部分文件

问题描述

我正在运行一个 MapReduce 作业,该作业将只有 Mapper 阶段(无 Reducers)的 JSON 文件输出到 HDFS,处理大约 100gb 的输入文件。大部分工作运行良好,直到我找到一些部分写入的输出文件。 MapReduce 作业没有抛出任何异常。

预期输出
{"id":1,"first_name":"Stephanie","last_name":"Hayesman","email":"shayesman0@behance.net","gender":"polygender","ip_address":"132.234.151.37"}
{"id":2,"first_name":"Tricia","last_name":"Klaus","email":"tklaus1@acquirethisname.com","gender":"Genderfluid","ip_address":"10.213.69.232"}
{"id":3,"first_name":"Marta","last_name":"Castanares","email":"mcastanares2@dot.gov","gender":"Genderqueer","ip_address":"168.1.204.80"}
{"id":4,"first_name":"Stormie","last_name":"Maccleod","email":"smaccleod3@nsw.gov.au","gender":"Bigender","ip_address":"64.11.123.125"}
{"id":5,"first_name":"Ilyse","last_name":"Gudahy","email":"igudahy4@canalblog.com","gender":"Female","ip_address":"22.146.172.113"}
当前输出
{"id":1,"last_name":"Castanar',

在极少数情况下 (6/250) 运行 100gb 时会出现这种切碎的输出文件,如果我使用相同的输入再次运行作业,则会出现随机文件

任何有关为什么会发生这种情况的意见表示赞赏。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)