将fastq读取的内容拆分为10G的迷你文件，汇编器不接受fastq格式

问题描述

我使用以下代码将52G fastq文件拆分为10G块：

split -b 10G /home/bilalm/H_glaber_quality_filtering/AfterQC/good_reads/SRR530529.good.fq outputfile

这产生了以下文件：

-rw-rw-r-- 1 bilalm bilalm  10G Aug 11 13:48 outputfileaa
-rw-rw-r-- 1 bilalm bilalm  10G Aug 11 13:49 outputfileab
-rw-rw-r-- 1 bilalm bilalm  10G Aug 11 13:50 outputfileac
-rw-rw-r-- 1 bilalm bilalm  10G Aug 11 13:51 outputfilead
-rw-rw-r-- 1 bilalm bilalm  10G Aug 11 13:52 outputfileae
-rw-rw-r-- 1 bilalm bilalm 1.6G Aug 11 13:53 outputfileaf

当我尝试用Velvet组装“ outputfileab”时，出现以下错误消息：

velveth: /home/bilalm/H_glaber_quality_filtering/AfterQC/good_reads/split_SRR530529_file/outputfileab does not seem to be in FastQ format

奇怪的是，通常使用velveth和velvetg来组装第一个10G读取内容，即“ outputfileaa”。

有人知道怎么回事吗？

解决方法

split只是通过文件大小而不是行数来实现的，并且如果达到字节数限制，则将在行的中间进行拆分。 velvet可以断言是否每四行都以@开头，因此考虑使用split方法，该检查将失败，这就是为什么我们看到这种情况发生在第二个文件而不是第一个文件上。我建议您通过行数通过split标志来-l xxxx这个文件。

bioinformatics genome linux linux sequence-alignment split