如何从交叉的 VCF 文件中找到编码区域?

问题描述

我是一名学生,我的报告给我带来了很多问题。我是一个完全的新手,我希望你能帮助我。

我对如何使用 Python 处理以下问题有疑问:
我正在查看一项队列研究,该研究分别调查了与野生型猪相比瘦猪和肥胖猪的突变。我应该确定哪些 SNP 或突变会改变蛋白质的氨基酸序列。这是正在研究的特定染色体。

这是我拥有的文件我有一个 VCF 文件,其中包含有关突变的信息。我有一个带有蛋白质编码区的 CDS 注释文件一个 gtf 文件)。我有一个文件,其中 VCF 文件已与注释文件相交 使用 bedtools,然后我有一个 fasta 文件,其中包含研究的染色体基因组序列。 >

我不确定我是如何解决这个问题的。我认为我必须执行以下操作: 找到编码区,所以我有野生型的编码区。然后从 VCF 文件提取信息以制作包含突变的序列的文件。然后我可以翻译野生型序列和突变序列,并确定哪些突变导致不同的氨基酸序列。

有没有人有任何提示或指南,我可以使用哪些 python 代码来查找编码区域,还可能从 VCF 文件提取相关信息? 我已经用了很多天和几个小时没有真正去任何地方。因此,非常感谢任何帮助!

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)