Apache Hadoop 0.20.203中的MultipleOutputs [duplicate]

问题描述

| 这个问题已经在这里有了答案：

解决方法

首先，您是否考虑过尝试将MultipleOutputs反向移植到您正在运行的Hadoop版本？我不知道这样做会有多困难，但是我已经成功地向后移植了CombineFileInputFormat中的错误修复之类的东西。如果没有MultipleOutputs，则可以通过编写自定义分区程序以将键放入预定的存储桶集中，并强制将reduce任务的数量等于存储桶的数量来实现类似的操作。我将通过一个与您为MultipleOutputs链接的JavaDocs中的示例相似的示例，使这一过程更加具体。在该示例中，reducer写入了2个预定的命名输出：\“ text \”和\“ seq \”。知道在作业提交时恰好有2个输出，因此我们提交了将reduce任务数设置为2的作业。对于映射器收到的每个键值对，它必须编写2个输出键值对：其中一个带有\“文本\“作为密钥的一部分，而其中带有\” seq \“作为密钥的一部分。然后，在自定义分区程序中，我们可以执行以下操作：

if (key.toString().equals(\"text\"))
    return 0;
else if (key.toString().equals(\"seq\"))
    return 1;

然后，假设没有操作者IdentityReducer，我们知道part-r-00000的内容将具有所有\“ text \”记录，而part-r-00001的内容将具有所有\“ seq \”记录。作业必须执行2个reducer任务，这一点至关重要。（如果只有一个化简任务，那么它将把\“ text \”和\“ seq \”记录合并为part-r-00000。）注意，我已经从MultipleOutputs示例中跳过了第三个命名输出。这很难解决，因为必须在运行时确定名称。仅当您在作业提交时知道一组预定名称时，此解决方案才有效。合理的警告：整个解决方案非常脆弱。如果名称数量更改，则必须更改化简器任务的数量以使其匹配。根据问题的性质，可以在提交作业之前动态检测所有可能的键，并相应地动态调整减少任务的数量。它还需要花费更多的精力来将解决方案扩展到多个缩减任务。考虑到所有因素，此解决方案可能很难维护，但这是我知道如何在不使用MultipleOutputs的情况下解决该问题的唯一方法。

apache duplicate