将作业提交到指定多个输入 s3 位置的 AWS EMR

问题描述

我在 s3 上启动并运行了一个 emr hbase 集群。我在 s3 中有多个文件夹,需要上传到 emr。我使用 aws lambda 函数提交作业。以下是为 1 个 s3 文件夹提交 emr 作业的代码

step = {
    'Name':'My step','ActionOnFailure': 'CONTINUE','HadoopJarStep': {
        'Jar': "/usr/lib/phoenix/phoenix-4.14.3-HBase-1.4-client.jar",'MainClass': "org.apache.phoenix.mapreduce.CsvBulkLoadTool",'Args': [
            '--table',table_name,'--input','s3://s3location1/','--zookeeper',master_dns
        ]
     }
}
emr_client = boto3.client('emr')
response = emr_client.add_job_flow_step(
           JobFlowId=cluster_id,Steps=[step])

对于 s3location1,作业运行良好。但是现在我有多个 s3 位置,每个位置都有不同的名称,并且它们没有共同的前缀。我需要在上面的 1 个单步中为这些文件夹提交作业。如何在“--input”下方提及文件夹的别名?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)