问题描述
以下是我拥有的以逗号分隔的 FASTQ 读取 ID 列表。我想知道如何从我的 fastq 文件中提取这些读取。你能告诉我是否有任何命令可以提取fastq序列。 提前致谢
A00868:56:HK2YWDRXX:1:2211:30337:23218,A00868:56:HK2YWDRXX:2:2102:20130:27273,A00868:56:HK2YWDRXX:1:2603DRXX:1:260928,A00868:56:HK2YWDRXX:1:260928 :2:2246:19705:12195,A00868:56:HK2YWDRXX:1:2240:31313:34240,A00868:56:HK2YWDRXX:1:2273:25373:21292,A00868:56:HK2YWDRXX:2:2124:20808:35837,A00868:56:HK2YWDRXX:2:2233:25147:18302,A00868:56:HK2YWDRXX:1:2240:9986:9612,A00868:56:HK2YWDRXX:2:2256:15230:13526,A00868:56:HK2YWDRXX:2:2160:2263 A00868:56:HK2YWDRXX:2:2144:16269:23218,A00868:56:HK2YWDRXX:2:2165:30156:9721,
解决方法
这个问题的一个解决方案是将您的 ID 保存到一个名为“list_of_seqs_to_get.txt”的文件中,将您的文件格式化为每行一个 ID:
sed -i 's/,/\n/g; s/ //g' list_of_seqs_to_get.txt
,然后使用 seqkit 抓取这些序列:
seqkit grep --pattern-file list_of_seqs_to_get.txt file.fq > selected_reads.fq