Snakemake古代标记与通配符

问题描述

我从NCBI网站上下载的SRA文件很少。现在,我要将它们添加到我的snakemake工作流程中。但是,如果它们不可用,我想保留使用prefetch下载它们的能力。我遵循以下简单规则,

BASE = "/path/to/working/folder"

rule all:
    input: [f"{BASE}/fastq/SRR000001.sra_1.fastq",f"{BASE}/fastq/SRR000001.sra_2.fastq"]
    shell:
        "echo Finished"

rule get_sra:
    input: ancient("config/config.yaml")
    output:"{BASE_FOLDER}/sra/{SSR_ID}.sra"
    shell:
         "prefetch -p {wildcards.SSR_ID} --output-file {output} "

rule get_fastq:
    input: expand("{folder}/sra/{srr}.sra",folder=BASE,srr="{SRR_ID}")
    output:
          expand("{folder}/fastq/{srr}.sra_{i}.fastq",srr="{SRR_ID}",i=[1,2])
    shell:
         "fasterq-dump {input} --outdir {BASE}/fastq"

         

如果我使用上述规则,则我的工作流将重新创建我的SRA文件,因为它们的时间戳会更旧。但是,我不想再次从服务器下载完整的SRA文件,而使用已经下载的文件

为此,我尝试使用ancient标签。但是我不能将此标记与任何通配符一起使用。

input: ancient("{BASE_FOLDER}/sra/{SSR_ID}.sra")

以上规则给出错误

无法从输出文件确定输入文件中的通配符:

任何解决此问题的方法?当我使用expand时,这也不起作用。

解决方法

问题在于并非大括号中指定的所有内容实际上都是通配符。您可能有3种不同的用例,其中可以使用花括号:

  • expand函数
  • f-string
  • 通配符

在前两种情况(扩展和f字符串)中,结果是完全指定的字符串,根本没有任何通配符。如果您有这样的事情:

rule dummy:
    input: "{wildcard}.input"
    output: expand("{wildcard}.output",wildcard=["1","2"])

结果将很简单:

rule dummy:
    input: "{wildcard}.input"
    output: ["1.output","2.output"]

如您所见,输出部分根本没有通配符,因此输入无法确定其通配符的值。

典型的解决方案是将该规则分为两个规则:

rule all:
    input: expand("{wildcard}.output","2"])

rule do_some_work:
    input: "{wildcard}.input"
    output: "{wildcard}.output"

但是请注意,我在{wildcard}中称为rule all:的东西本身并不是通配符,而是在expand函数的本地上下文中任意选择的名称。