程序来比对两个同源序列的fasta文件?

问题描述

我有两组来自两个不同蝙蝠物种基因组的相应同源序列,每组都在自己的fasta文件中。

例如,对于蝙蝠物种1,我在sp1.fasta中有一组序列,格式为

> ID_10
GAATCCCCCTATGATGTCCACGATTATATTCGTTCCTGCCTGGGGGACACGCTGGAAGCCA
> ID_1
TCAAGTTGCTCAGCGGACGCATGACGCCCCCGTTGTACCTGCAGCTGCTCATGGCTATTTC
> ID_40
TCGGGTTGCTATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAAAACTTGGGAATTTCC
...
> ID_1963
TCGGGTTGCTATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAAAACTTGGGAATTTCC \

对于蝙蝠2,我在sp1.fasta中有一组序列,格式为

> ID_167
CCCATGCCGGCTCCGGTAGAATCCAGGCGGCGAGTCCGATTGGTTGGGCGCACCAAAACAA
> ID_500
TTACAAGGGTTCAATTAAAAGATATCTTAATTCTAAATGATATAATAGAAAATATATAATA
...
> ID_1
TCAAGTTGCTCAGCGGACGCATGAGGCCCCCGTTGTACCTGCAGCTGGTCATGGCTATTTC
> ID_2
TCGGGTTGCAATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAATACTTGGGAATTTCC
...
> ID_1895 GGACCACTCAGGCTGAGGTACAGGGCAGAGAAGGACACTTCCAGAGAGATACCTCAGCATG \

每个fasta文件的序列数量略有不同(物种1具有1963个序列,物种2具有1895个序列)。但是,fasta文件中的序列都具有一个ID作为fasta头-并且集合之间匹配的fasta头ID表示同源序列。而且,所有序列的长度相同(111个碱基对)

我正在寻找一个程序,使我可以对这些同源序列集进行对齐(即,对每个同源对进行对齐,并按Fasta标头ID进行匹配)。最终目标是构建同源物的成对距离矩阵

对于这个问题我使用的术语不正确,我深表歉意!我对基因组学和计算学都非常陌生。任何帮助将不胜感激

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...