您应该在基因组组装后重新组合分割的fastq文件吗?

问题描述

我已经将一个较大的fastq文件拆分为6个或7个较小的,更易于管理的文件,用于基因组组装。

现在重新组合输出文件(contigs.fasta)是否“生物学上正确”?有更有意义的方法吗?

谢谢。

解决方法

最佳实践是使用可以在足够的硬件(具有大的RAM和快速的I / O)上处理大型fastq文件的汇编程序。如果输入大于RAM中的容量,则让汇编软件自己并行化汇编过程。最好使用这种单一输入方法,将输入分成多个部分,分别组装每个部分,然后“组装”部分输出/重叠群。

参考:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/

Dominguez Del Angel,V.,Hjerde,E.,Sterck,L.,Capella-Gutierrez,S.,Notredame,C.,Vinnere Pettersson,O.,Amselem,J.,Bouri,L.,Bocs, S.,Klopp,C.,Gibrat,JF,Vlasova,A.,Leskosek,BL,Soler,L.,Binzer-Panchal,M.,&Lantz,H.(2018年)。基因组组装和注释入门的十个步骤。 F1000Research,7,ELIXIR-148。 https://doi.org/10.12688/f1000research.13598.1

对于基因组组装,运行时间和存储要求将 随着数据量的增加。随着大数据需要更多数据 基因组,因此基因组大小与 运行时间/内存要求。只有一小部分可用 汇编程序可以将汇编程序分为几个过程 并在多个计算节点上并行运行它们。无法使用的工具 这样做往往会在单个节点上需要大量内存,而 可以拆分进程的程序每个程序需要较少的内存 单个节点,但是当 有几个节点可用。因此,选择 在项目早期使用适当的组装工具,并确保有 足够的正确类型的可用计算资源来运行这些资源 工具。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...