将 grep 与模式文件一起使用会返回不在模式文件中的模式序列名称

问题描述

我正在清理测序数据。我有一个包含读取（名称）的文件，我想用 grep 查找并最终删除。模式文件有 219,721 行，没有重复的条目。序列 .fastq 文件的长度为 557,514,608 行，没有重复的名称。

我用过： grep -f patternfile.txt sequencefile.fastq > outputfile.txt

我期望输出文件与模式文件相同（除了末尾包含 1:N:0:ACTGAT），但输出文件有 135 行（名称）。这些额外的名称不是重复的，并且在模式文件中找不到。我可以打开输出文件并识别多余的行。下面显示了模式文件第 340-342 行的示例：

@NB501827:133:HMV5HAFX2:1:11101:13856:12920
@NB501827:133:HMV5HAFX2:1:11101:16016:12934
@NB501827:133:HMV5HAFX2:1:11101:19446:12943

输出文件与第 341 行相同，如下所示：

@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:16016:12934 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:19446:12943 1:N:0:ACTGAT

请注意，第 341 行 @NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT 处存在错误的额外行，这只是其他 134 行额外行的一个示例。

我为什么要这样做？ 这是一个配对的末端读取测序实验，我发现了 219,721 个实例，其中“sequencefileR2”文件中的读取为 75 个“G”的字符串，并且由于测序而出现明显错误。我能够使用 grep 提取这些序列名称，现在想要删除两个文件（sequencefileR1 和 sequencefileR2）中的相应读取。计划是使用 grep 的逆标志（例如 grep -v）来生成没有这些特定序列的序列文件。我在生成最终文件之前检查了 grep 输出并发现了这个问题。

我尝试了什么？ 我已尝试确保不存在 Windows (DOS) 行尾。我试过在模式文件中包含 1:N:0:ACTGAT 我在三个不同的文件系统（CentOS7、Gitbash、Cygwin）上尝试过这个命令，结果相同（总是得到完全相同的输出）。我试过egrep 我已经使用了上面显示的模式文件单独的行 340、341 和 342（以及还有错误的输出行），并且只从序列文件（例如）中获得了一个输出行（例如）

grep @NB501827:133:HMV5HAFX2:1:11101:13856:12920 sequencefileR2.fastq
@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT

我尝试从模式文件的每一行中删除 @ 符号，但得到了相同的结果。我试过把 grep 放在一个循环中（这不起作用，他们是业余尝试）

for pattern in 'R1-R2-names.txt'; do     grep "$pattern"
 L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done

for pattern in 'cat R1-R2-names.txt'; do     grep "$pattern"
 L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done

我对 sed 和 awk 解决方案持开放态度，但想了解为什么这个简单的 bash 解决方案不起作用。谢谢。

解决方法

使用

grep -w -F -f patternfile.txt sequencefile.fastq > outputfile.txt

-w 表示仅当模式被单词边界包围时才匹配模式。 -F 表示匹配固定文本模式，而不是正则表达式（这在这里可能并不重要，因为您的模式似乎不包含任何具有特殊含义的字符，但这是一种很好的做法）。

我怀疑您的模式文件包含 @NB501827:133:HMV5HAFX2:1:11101:26336:12921 前缀，因此它与此行匹配。 -w 选项将阻止匹配这些前缀。

bash grep grep sequencing

将 grep 与模式文件一起使用会返回不在模式文件中的模式序列名称

问题描述

解决方法

相关问答