将多个VCF文件合并为一个大VCF文件

问题描述

我有来自特定种族的VCF文件列表,例如美洲印第安人,中国人,欧洲人等

在每个种族下,我都有大约100多个文件

目前,我针对一个文件计算了VARIANT QC指标,例如call_raten_het等,如冰雹教程中所示(请参见下图)

image is here

但是,现在我想为每个种族创建一个文件,然后计算VARIANT_QC指标。

我已经提到了这个post和这个post,但是认为这并不能解决我的查询

如何针对特定种族的所有文件执行此操作?

可以帮我吗?

有没有hail/python/R/other tools方法可以做到这一点?

解决方法

您可以使用Variant Transforms来实现此目标。 Variant Transforms是用于将VCF文件解析和导入到BigQuery中的工具。它还可以执行反向转换:将BigQuery表中存储的变体导出到VCF文件。因此,基本上您需要:multiple VCF files -> BigQuery -> Single VCF file

Variant变换可以轻松处理multiple input files。它还可以执行更复杂的逻辑,以跨多个文件merge same variants到同一记录。将所有变体加载到BigQuery中后,您可以export them to VCF file

请注意,变量转换会创建一个separate table for each chromosome以优化查询成本。您可以轻松地为每个染色体创建一个VCF文件,然后将它们合并在一起以创建一个。

如果您需要有关此任务的帮助,可以联系Variant Transforms team

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...