为什么 vcf2fq 生成的共识序列即使在它们占主导地位时也会错过插入缺失?怎么修?

问题描述

在比对序列读数并转换为 BAM 后,我可以看到 9 碱基缺失的存在。

mpileup 和 bcftools 也正确调用了这个删除区域

Visualization of the region of BAM file in Tablet. The asterisks are deletions.

bcftools mpileup -Ou -f $ref xxx.bam -o newbcfMPILE_xxx
bcftools call newbcfMPILE_xxx --ploidy 1 -mv -Ov -o newbcfMPILE_xxx_haploid.vcf
bcftools call newbcfMPILE_${sname} --ploidy 1 -c -Ov | vcfutils vcf2fq > cns_xxx.fq

在共有序列中,这部分是:

ctagtttgtctAgtttGaagcta  <--consensus from vcf2fq
ctagtttg---------aagcta  <--Expect this because reads with deletions is predominant
...........A....G......  <--mutations in other reads without deletion,which fill in the gaps in the consensus

ctagtttgtctGgtttTaagcta  <--REF

在 vcf 文件中,我确实看到这些 indel 突变具有比其他更多的缺失突变读取数。

#CHROM      POS     REF        ALT  QUAL    INFO
SARSCOV2    11287   GTCTGGTTTT  G   228.344 DP=224; DP4=27,1,167,29;MQ=54
SARSCOV2    11288   TCTGGTTTTA  T   228.325 DP=205; DP4=15,4,159,27;MQ=54

167+29 = 224 个读数中的 196 个读数显示缺失。 除两端各有一个碱基外,其他缺失重叠,显性比例相似。

有没有一种方法可以通过删除(或用---------填充)删除的部分而不是少数读取的核苷酸来产生共识?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)