Bash 循环而不是 VS 并行进程

问题描述

我在 bash 中使用 cat+pipe+parallel 编写了一个简单的脚本,但由于大量输入数据(>200),我的计算机崩溃了。但是,它仅适用于少数文件 (2)。 我被推荐使用“for”或“foreach”循环来避免崩溃,但我正在努力将我的脚本转换为循环。

DATADIR 中的输入文件

FAO21783_pass_c04106c7_0.fastq

FAO21783_pass_c04106c7_1.fastq

FAO21783_pass_c04106c7_2.fastq

FAO21783_pass_c04106c7_3.fastq

FAO21783_pass_c04106c7_4.fastq

等等...

原始脚本(使用并行)并且运行良好:

    #!/bin/zsh -x

    DATADIR=shimbok_data/SB1_F2_data/fastq_pass

    DATAOUT=shimbok_data/SB1_F2_data/output

    DATABASEDIR=kaijudb

    DATABASE=kaijudb/refseq/kaiju_db_refseq.fmi

runinfo.txt 包含 DATADIR 中的文件列表

    cat shimbok_data/SB1_F2_data/runinfo.txt | parallel kaiju -t ${DATABASEDIR}/nodes.dmp -f ${DATABASE} -i ${DATADIR} -o ${DATAOUT}/{}.out

我正在尝试将其转换为循环,但在输出文件名方面遇到问题。我希望它们像输入文件一样被调用,但带有 .out 扩展名(我想要 FAO21783_pass_c04106c7_0.fastq.out)

这是我能做的:

    for file in shimbok_data/SB1_F2_data/fastq_pass
      do kaiju -t ${DATABASEDIR}/nodes.dmp -f ${DATABASE} -i ${file} -o ${DATAOUT}/${file}.out
    done

它写的输出错误的:shimbok_data/SB1_F2_data/output/shimbok_data/SB1_F2_data/fastq_pass.out

我尝试了其他几种方法,但对我来说这似乎是最接近正确的方法...有什么帮助吗?

提前致谢

更新:

我听取了评论中的建议,它似乎工作正常,但后来我意识到并行进程本身对我不起作用,因为脚本生成输出文件都是空的。

通过使用“parallel”命令,Kaiju 程序使用 runinfo.txt 列表,但要正常工作,它需要使用 DATADIR 中的实际文件(fastq)...

与此同时,我发现了一个适合我的情况的循环:

      set num = 0
      set num_e = 266


      while ( $num < $num_e )
        set xx = `printf ${num}`
        echo xx

      kaiju -t ${DATABASEDIR}/nodes.dmp -f ${DATABASE} -i 
      ${DATADIR}/FAO21783_pass_c04106c7_${xx}.fastq -o 
      ${DATAOUT}/FAO21783_pass_c04106c7_${xx}.out

         @ num++
         end

有没有办法使用 GNU 并行进程进行相同的迭代?或者其他可以很好地解决此类问题的循环?

提前致谢

解决方法

让 GNU Parallel“并行”运行单个作业怎么样:

cat shimbok_data/SB1_F2_data/runinfo.txt |
  parallel -j1 kaiju -t ${DATABASEDIR}/nodes.dmp -f ${DATABASE} -i ${DATADIR} -o ${DATAOUT}/{}.out

或 2:

cat shimbok_data/SB1_F2_data/runinfo.txt |
  parallel -j2 kaiju -t ${DATABASEDIR}/nodes.dmp -f ${DATABASE} -i ${DATADIR} -o ${DATAOUT}/{}.out
,

我正在制作一个简单的例子来展示如何运行一个可读的 for 循环。像这样准备你的“假”文件:

mkdir my-input-dir
cd my-input-dir
touch file1.txt  file2.txt  file3.txt  file4.tmp
cd ..
mkdir my-out-dir

您的目录结构应如下所示(我自愿创建了一个 .tmp 文件来展示如何过滤循环):

$ : tree .
├── my-input-dir
│   ├── file1.txt
│   ├── file2.txt
│   ├── file3.txt
│   └── file4.tmp
└── my-out-dir

touch 命令创建一个空文件,这就是为什么对演示很有用。

现在为了模仿您需要做的事情,我创建了一个脚本,该脚本基于输入文件创建具有相同名称和 .out 扩展名的输出文件(例如 file.txt -> file1.out)。

INPUT_DIR=./my-input-dir
OUTPUT_DIR=./my-out-dir
for file in `ls $INPUT_DIR/*.txt`
do
  BASENAME=$(basename $file .txt)
  OUTFILE="$OUTPUT_DIR/$BASENAME.out"
  touch $OUTFILE
done

然后您可以在my-out-dir中找到生成的文件:

$ : ls $OUTPUT_DIR
file1.out  file2.out  file3.out

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...