问题描述
我正在清理测序数据。
我有一个包含读取(名称)的文件,我想用 grep
查找并最终删除。
模式文件有 219,721 行,没有重复的条目。序列 .fastq
文件的长度为 557,514,608 行,没有重复的名称。
我用过:
grep -f patternfile.txt sequencefile.fastq > outputfile.txt
我期望输出文件与模式文件相同(除了末尾包含 1:N:0:ACTGAT
),但输出文件有 135 行(名称)。这些额外的名称不是重复的,并且在模式文件中找不到。我可以打开输出文件并识别多余的行。下面显示了模式文件第 340-342 行的示例:
@NB501827:133:HMV5HAFX2:1:11101:13856:12920
@NB501827:133:HMV5HAFX2:1:11101:16016:12934
@NB501827:133:HMV5HAFX2:1:11101:19446:12943
@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:16016:12934 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:19446:12943 1:N:0:ACTGAT
请注意,第 341 行 @NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT
处存在错误的额外行,这只是其他 134 行额外行的一个示例。
我为什么要这样做?
这是一个配对的末端读取测序实验,我发现了 219,721 个实例,其中“sequencefileR2”文件中的读取为 75 个“G”的字符串,并且由于测序而出现明显错误。我能够使用 grep 提取这些序列名称,现在想要删除两个文件(sequencefileR1 和 sequencefileR2)中的相应读取。计划是使用 grep
的逆标志(例如 grep -v
)来生成没有这些特定序列的序列文件。我在生成最终文件之前检查了 grep 输出并发现了这个问题。
我尝试了什么?
我已尝试确保不存在 Windows (DOS) 行尾。
我试过在模式文件中包含 1:N:0:ACTGAT
我在三个不同的文件系统(CentOS7、Gitbash、Cygwin)上尝试过这个命令,结果相同(总是得到完全相同的输出)。
我试过egrep
我已经使用了上面显示的模式文件单独的行 340、341 和 342(以及还有错误的输出行),并且只从序列文件(例如)中获得了一个输出行(例如)
grep @NB501827:133:HMV5HAFX2:1:11101:13856:12920 sequencefileR2.fastq
@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT
我尝试从模式文件的每一行中删除 @
符号,但得到了相同的结果。
我试过把 grep 放在一个循环中(这不起作用,他们是业余尝试)
for pattern in 'R1-R2-names.txt'; do grep "$pattern"
L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done
for pattern in 'cat R1-R2-names.txt'; do grep "$pattern"
L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done
我对 sed
和 awk
解决方案持开放态度,但想了解为什么这个简单的 bash 解决方案不起作用。谢谢。
解决方法
使用
grep -w -F -f patternfile.txt sequencefile.fastq > outputfile.txt
-w
表示仅当模式被单词边界包围时才匹配模式。 -F
表示匹配固定文本模式,而不是正则表达式(这在这里可能并不重要,因为您的模式似乎不包含任何具有特殊含义的字符,但这是一种很好的做法)。
我怀疑您的模式文件包含 @NB501827:133:HMV5HAFX2:1:11101:26336:12921
前缀,因此它与此行匹配。 -w
选项将阻止匹配这些前缀。