无法在 AWS EMR Spark 应用程序上运行 MapReduce 作业

问题描述

我正在尝试从 mrjob 运行这个关于在 AWS EMR 上运行字数统计 MapReduce 作业的示例。

这是来自mrjob的字数统计代码示例：

from mrjob.job import MRJob

class MRWordFrequencyCount(MRJob):

    def mapper(self,_,line):
        yield "chars",len(line)
        yield "words",len(line.split())
        yield "lines",1

    def reducer(self,key,values):
        yield key,sum(values)


if __name__ == '__main__':
    MRWordFrequencyCount.run()

我的 mrjob.conf 文件：

runners:
  emr:
    aws_access_key_id: <my_key_id>
    aws_secret_access_key: <my_access_key>
    region: ap-southeast-1
    subnet: subnet-9a2f90fc
    ec2_key_pair: EMR
    ec2_key_pair_file: ~/.ssh/EMR.pem
    ssh_tunnel: true

运行命令：

python word_count.py -r emr --cluster-id=j-CLUSTER_ID readme.rst --conf-path mrjob.conf

我的问题是，如果我选择集群的应用程序为 Core Hadoop，我可以运行此示例，但我无法使用 Spark 应用程序选项运行它。

这是使用 Spark EMR 集群运行时的错误：

Waiting for Step 1 of 1 (s-xxx) to complete...
  PENDING (cluster is RUNNING: Running step)
  Failed
Cluster j-CLUSTER_ID is WAITING: Cluster ready after last step Failed.

我想用 Spark 运行它，因为我的应用程序涉及一些 Spark 代码和一些 MapReduce 代码。

我该如何解决这个问题？

解决方法

我发现我可以创建一个安装了 Hadoop 和 Spark 的集群。在 Create Cluster - Quick Options 菜单中，转到 Go to advanced options。

选择 Spark 并继续正常设置您的集群。

创建集群后，我可以在这个集群上运行 MapReduce 和 Spark 应用程序。

amazon-emr apache-spark mrjob python