问题描述
我想从四个文库的公开可用 SRA 数据中重新组装真核基因组:两个配对末端和两个配对配对,全部使用 Illumina 测序(150 bp 读数)。但是,SRA 元数据并未指明哪些文库是配对末端或配对配对。
通过针对公共可用程序集对 SRA 配对读数进行魔法爆破,我预计配对末端读数将在重叠群/支架上相互映射,而配对对读数将在重叠群/支架上映射得更远。然而,所有四个文库的配对读数通常重叠。
以下是一些提取的数据,将每个库的成对读取(查询)映射到来自 magic-blast 输出文件的组装重叠群(refID):
queryID refID %_ident q_start q_end r_start r_end
SRR_1.sra.6388.1 S107.1 100 27 127 80397 80497
SRR_1.sra.6388.2 S107.1 100 1 101 80497 80397
SRR_2.sra.576423.1 S007.1 100 1 151 297238 297388
SRR_2.sra.576423.2 S007.1 100 58 151 297455 297362
SRR_3.sra.4219.1 S516.1 99.0654 45 151 40745 40639
SRR_3.sra.4219.2 S516.1 99.1379 1 116 40630 40745
SRR_4.sra.3159.1 S557.1 99.3333 1 150 37510 37659
SRR_4.sra.3159.2 S557.1 100 1 151 37706 37556
如上所示,SRR_1 和 SRR_3 读取对映射到(几乎)相同(反向)对应重叠群的坐标。我想如果文库片段来自配对的末端文库并且与读取长度(150 bp)的大小大致相同,这是可能的,但我预计会产生更长的文库片段(300-600 bp)。
SRR_2 和 SRR_4 读取对的映射坐标是偏移的,但仍然重叠(在许多情况下,重叠与 SRR_1 和 SRR_3 对一样广泛)。如果它们来自配偶对库,我希望它们映射到相同的重叠群,但彼此之间有数百个碱基对。
我的工作假设是所有四个库都是由非常小的片段组成的,但也许还有另一种可能的解释。或者也许我对配对末端和配对读取映射的期望是错误的。有什么见解吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)