python mrjob:忽略无法识别的参数

问题描述

通常,如果我想为 mrjob 定义一个命令行选项,我必须这样做:

class Calculate(MRJob):
    def configure_args(self):
        super(Calculate,self).configure_args()
        self.add_passthru_arg("-t","--time",help="output folder for time")

当我想使用参数时,我只需要调用 self.options.time 但它只能在该类中工作。

我想跟踪 mrjob 的时间并将时间写入 json 文件,如下所示 cal.py

from datetime import datetime
import json
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("-t",help = "Output file")
args = parser.parse_args()

class Calculate(MRJob):
    ...

start_time = datetime.Now()
Calculate.run()
execute_time = (datetime.Now() - start_time).total_seconds()

data = {}
data["step1"] = execute_time
with open(args.time+'/time.json','w') as outfile:
    json.dump(data,outfile)

当我用这个命令运行时:

python cal.py data/input/input.txt --output data/output --time data/output

我收到此错误

usage: cal.py [-h] [-t TIME]
cal.py: error: unrecognized arguments: data/input/input.txt --output data/output

然后我找到了一个关于使用 parse_kNown_args()answer 并尝试了一下:

args,unkNown = parser.parse_kNown_args()

现在,我遇到了一个错误。我相信这是来自 mrjob 因为我确实删除argparse 并运行了相同的命令,它完全像这样返回:

usage: cal.py [options] [input files]
cal.py: error: unrecognized arguments: --time data/output

如何在不影响 mrjob 类的情况下定义参数

解决方法

我找到了一个变通的解决方案,但我希望有更好的方法来做到这一点。

我必须在 mrjob 类中再次定义参数,以便它可以识别它:

from datetime import datetime
import json
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("-t","--time",help = "Output file")
args,unknown = parser.parse_known_args()

class Calculate(MRJob):
    def configure_args(self):
        super(Calculate,self).configure_args()
        self.add_passthru_arg("-t",help="output folder for time")

start_time = datetime.now()
Calculate.run()
execute_time = (datetime.now() - start_time).total_seconds()

data = {}
data["step1"] = execute_time
with open(args.time+'/time.json','w') as outfile:
    json.dump(data,outfile)

并使用此命令运行:

python cal.py data/input/input.txt --output data/output --time data/output