您应该在基因组组装后重新组合分割的fastq文件吗？

问题描述

我已经将一个较大的fastq文件拆分为6个或7个较小的，更易于管理的文件，用于基因组组装。

现在重新组合输出文件（contigs.fasta）是否“生物学上正确”？有更有意义的方法吗？

谢谢。

解决方法

最佳实践是使用可以在足够的硬件（具有大的RAM和快速的I / O）上处理大型fastq文件的汇编程序。如果输入大于RAM中的容量，则让汇编软件自己并行化汇编过程。最好使用这种单一输入方法，将输入分成多个部分，分别组装每个部分，然后“组装”部分输出/重叠群。

参考：

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/

Dominguez Del Angel，V.，Hjerde，E.，Sterck，L.，Capella-Gutierrez，S.，Notredame，C.，Vinnere Pettersson，O.，Amselem，J.，Bouri，L.，Bocs， S.，Klopp，C.，Gibrat，JF，Vlasova，A.，Leskosek，BL，Soler，L.，Binzer-Panchal，M.，＆Lantz，H.（2018年）。基因组组装和注释入门的十个步骤。 F1000Research，7，ELIXIR-148。 https://doi.org/10.12688/f1000research.13598.1

对于基因组组装，运行时间和存储要求将随着数据量的增加。随着大数据需要更多数据基因组，因此基因组大小与运行时间/内存要求。只有一小部分可用汇编程序可以将汇编程序分为几个过程并在多个计算节点上并行运行它们。无法使用的工具这样做往往会在单个节点上需要大量内存，而可以拆分进程的程序每个程序需要较少的内存单个节点，但是当有几个节点可用。因此，选择在项目早期使用适当的组装工具，并确保有足够的正确类型的可用计算资源来运行这些资源工具。