如何判断序列读取对是来自配对末端还是配对库?

问题描述

我想从四个文库的公开可用 SRA 数据中重新组装真核基因组:两个配对末端和两个配对配对,全部使用 Illumina 测序(150 bp 读数)。但是,SRA 元数据并未指明哪些文库是配对末端或配对配对。

通过针对公共可用程序集对 SRA 配对读数进行魔法爆破,我预计配对末端读数将在重叠群/支架上相互映射,而配对对读数将在重叠群/支架上映射得更远。然而,所有四个文库的配对读数通常重叠。

以下是一些提取的数据,将每个库的成对读取(查询)映射到来自 magic-blast 输出文件的组装重叠群(refID):

queryID         refID  %_ident q_start  q_end   r_start   r_end

SRR_1.sra.6388.1  S107.1  100     27  127     80397   80497
SRR_1.sra.6388.2  S107.1  100     1   101     80497   80397

SRR_2.sra.576423.1 S007.1  100     1   151     297238  297388
SRR_2.sra.576423.2 S007.1  100     58  151     297455  297362

SRR_3.sra.4219.1  S516.1  99.0654   45  151     40745   40639
SRR_3.sra.4219.2  S516.1  99.1379   1   116     40630   40745

SRR_4.sra.3159.1  S557.1  99.3333 1   150     37510   37659
SRR_4.sra.3159.2  S557.1  100     1   151     37706   37556

如上所示,SRR_1 和 SRR_3 读取对映射到(几乎)相同(反向)对应重叠群的坐标。我想如果文库片段来自配对的末端文库并且与读取长度(150 bp)的大小大致相同,这是可能的,但我预计会产生更长的文库片段(300-600 bp)。

SRR_2 和 SRR_4 读取对的映射坐标是偏移的,但仍然重叠(在许多情况下,重叠与 SRR_1 和 SRR_3 对一样广泛)。如果它们来自配偶对库,我希望它们映射到相同的重叠群,但彼此之间有数百个碱基对。

我的工作假设是所有四个库都是由非常小的片段组成的,但也许还有另一种可能的解释。或者也许我对配对末端和配对读取映射的期望是错误的。有什么见解吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...