如何在没有任何路径或环境相关问题的情况下通过 nextflow 在 docker 容器中无缝运行 python 脚本?

问题描述

我正在尝试使用 nextflow 和 docker 运行 python 脚本。我正在使用一个 dockerfile(如下所示)来创建一个 docker 镜像。 Nextflow 脚本有一个简单的 python 脚本启动。问题是当我从 docker 容器内(在交互模式下)运行相同的 python 命令时,它工作正常。但是当我使用带有 docker 容器的 nextflow 启动它时,它会抛出错误

Dockerfile:

#!/usr/local/bin/docker
# -*- version: 20.10.2 -*-

############################################
## MULTI-STAGE CONTAINER CONfigURATION ##
FROM python:3.6.2
RUN apt-get update && apt-get install -y \
    apt-transport-https \
    software-properties-common \
    unzip \
    curl
RUN wget -O- https://apt.corretto.aws/corretto.key | apt-key add - && \
    add-apt-repository 'deb https://apt.corretto.aws stable main' && \
    apt-get update && \
    apt-get install -y java-1.8.0-amazon-corretto-jdk


############################################
## PHEKNowLATOR (PKT_KG) PROJECT SETTINGS ##
# create needed project directories
workdir /PKT
RUN mkdir -p /PKT
RUN mkdir -p /PKT/resources
RUN mkdir -p /PKT/resources/construction_approach
RUN mkdir -p /PKT/resources/edge_data
RUN mkdir -p /PKT/resources/kNowledge_graphs
RUN mkdir -p /PKT/resources/node_data
RUN mkdir -p /PKT/resources/ontologies
RUN mkdir -p /PKT/resources/processed_data
RUN mkdir -p /PKT/resources/relations_data

# copy scripts/files needed to run pkt_kg
copY pkt_kg /PKT/pkt_kg
copY Main.py /PKT
copY setup.py /PKT
copY README.rst /PKT
copY resources /PKT/resources

# download and copy needed data
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/edge_source_list.txt && mv edge_source_list.txt resources/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/ontology_source_list.txt && mv ontology_source_list.txt resources/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/resource_info.txt && mv resource_info.txt resources/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/subclass_construction_map.pkl && mv subclass_construction_map.pkl resources/construction_approach/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/PheKNowLator_MergedOntologies.owl && mv PheKNowLator_MergedOntologies.owl resources/kNowledge_graphs/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/node_Metadata_dict.pkl && mv node_Metadata_dict.pkl resources/node_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/disEASE_MONDO_MAP.txt && mv disEASE_MONDO_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/ENSEMBL_GENE_ENTREZ_GENE_MAP.txt && mv ENSEMBL_GENE_ENTREZ_GENE_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/ENTREZ_GENE_PRO_ONTOLOGY_MAP.txt && mv ENTREZ_GENE_PRO_ONTOLOGY_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/GENE_SYMBOL_ENSEMBL_TRANSCRIPT_MAP.txt && mv GENE_SYMBOL_ENSEMBL_TRANSCRIPT_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/HPA_GTEx_TISSUE_CELL_MAP.txt && mv HPA_GTEx_TISSUE_CELL_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/MESH_CHEBI_MAP.txt && mv MESH_CHEBI_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/PHENOTYPE_HPO_MAP.txt && mv PHENOTYPE_HPO_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/STRING_PRO_ONTOLOGY_MAP.txt && mv STRING_PRO_ONTOLOGY_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/UNIPROT_ACCESSION_PRO_ONTOLOGY_MAP.txt && mv UNIPROT_ACCESSION_PRO_ONTOLOGY_MAP.txt resources/processed_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/INVERSE_RELATIONS.txt && mv INVERSE_RELATIONS.txt resources/relations_data/
RUN curl -O https://storage.googleapis.com/phekNowlator/current_build/data/processed_data/RELATIONS_LABELS.txt && mv RELATIONS_LABELS.txt resources/relations_data/

# install needed python libraries
RUN pip install --upgrade pip setuptools
workdir /PKT
RUN pip install .


############################################
## GLOBAL ENVRIONMENT SETTINGS ##
# copy files needed to run docker container
copY entrypoint.sh /PKT

# update permissions for all files
RUN chmod -R 755 /PKT

# set OWlTools memory (set to a high value,system will only use available memory)
ENV OWLTOOLS_MEMORY=500g
RUN echo $OWLTOOLS_MEMORY

# set python envrionment encoding
RUN export PYTHONIOENCODING=utf-8

docker 镜像名称--pkt:2.0.0

Nextflow 脚本:

process run_PKTBaseRun{

echo True

container 'pkt:2.0.0'
publishDir "${params.outDir}",mode: 'copy'

output:
file '*' into output_ch

script:
"""
which python
$PWD
pwd
python /PKT/Main.py --onts /PKT/resources/ontology_source_list.txt \
            --edg /PKT/resources/edge_source_list.txt \
            --res /PKT/resources/resource_info.txt \
            --out /PKT/resources/kNowledge_graphs --app subclass --kg full --nde yes --rel yes --owl no
"""


}

现在当我执行时:

nextflow run main.nf

然后这会给出与 glob.glob 模块相关的错误,因为它没有列出 docker 容器内必须的文件

但是,当我只是在 docker 容器内运行上面的 python 代码时,它就会无缝运行。

> docker run -it pkt:2.0.0 /bin/bash

/PKT> python Main.py --onts resources/ontology_source_list.txt \
            --edg resources/edge_source_list.txt \
            --res resources/resource_info.txt \
            --out resources/kNowledge_graphs --app subclass --kg full --nde yes --rel yes --owl no

只有当我将 nextflow 与 docker 结合使用时,此代码才会抛出错误。 我已经确保使用的python是容器内的。

问题:

  1. 有什么想法可以让它发挥作用?

有趣的是,
which python 的输出 --> 容器内的 python
但是,
$PWD 的输出 --> 启动 nextflow 的目录
pwd 的输出 --> nextflow 的工作目录

  1. 我们在nextflow进程中添加container的时候,不是nextflow进程里面的命令(run_PKTBaseRun)是从container workdir运行的吗?所以pwd的值不应该是container workdir的值而不是nextflow workdir的值吗?
  2. 立>

所有需要的文件都已添加到 docker 镜像中。

  1. 有没有办法确保 nextflow 进程中脚本部分中的命令是从 docker root/workdir 运行的?

这个 nextflow 和 docker 的想法是最终使用 awscli 在 aws 批处理上运行它。但是在 aws 批处理上运行它之前,要确保它在本地服务器上运行良好。

期待您的建议和想法。谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...