问题描述
我已经将一个较大的fastq文件拆分为6个或7个较小的,更易于管理的文件,用于基因组组装。
现在重新组合输出文件(contigs.fasta)是否“生物学上正确”?有更有意义的方法吗?
谢谢。
解决方法
最佳实践是使用可以在足够的硬件(具有大的RAM和快速的I / O)上处理大型fastq文件的汇编程序。如果输入大于RAM中的容量,则让汇编软件自己并行化汇编过程。最好使用这种单一输入方法,将输入分成多个部分,分别组装每个部分,然后“组装”部分输出/重叠群。
参考:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/
Dominguez Del Angel,V.,Hjerde,E.,Sterck,L.,Capella-Gutierrez,S.,Notredame,C.,Vinnere Pettersson,O.,Amselem,J.,Bouri,L.,Bocs, S.,Klopp,C.,Gibrat,JF,Vlasova,A.,Leskosek,BL,Soler,L.,Binzer-Panchal,M.,&Lantz,H.(2018年)。基因组组装和注释入门的十个步骤。 F1000Research,7,ELIXIR-148。 https://doi.org/10.12688/f1000research.13598.1
对于基因组组装,运行时间和存储要求将 随着数据量的增加。随着大数据需要更多数据 基因组,因此基因组大小与 运行时间/内存要求。只有一小部分可用 汇编程序可以将汇编程序分为几个过程 并在多个计算节点上并行运行它们。无法使用的工具 这样做往往会在单个节点上需要大量内存,而 可以拆分进程的程序每个程序需要较少的内存 单个节点,但是当 有几个节点可用。因此,选择 在项目早期使用适当的组装工具,并确保有 足够的正确类型的可用计算资源来运行这些资源 工具。