将多个VCF文件合并为一个大VCF文件

问题描述

我有来自特定种族的VCF文件列表，例如美洲印第安人，中国人，欧洲人等

在每个种族下，我都有大约100多个文件。

目前，我针对一个文件计算了VARIANT QC指标，例如call_rate，n_het等，如冰雹教程中所示（请参见下图）

image is here

但是，现在我想为每个种族创建一个文件，然后计算VARIANT_QC指标。

我已经提到了这个post和这个post，但是认为这并不能解决我的查询

如何针对特定种族的所有文件执行此操作？

可以帮我吗？

有没有hail/python/R/other tools的方法可以做到这一点？

解决方法

您可以使用Variant Transforms来实现此目标。 Variant Transforms是用于将VCF文件解析和导入到BigQuery中的工具。它还可以执行反向转换：将BigQuery表中存储的变体导出到VCF文件。因此，基本上您需要：multiple VCF files -> BigQuery -> Single VCF file

Variant变换可以轻松处理multiple input files。它还可以执行更复杂的逻辑，以跨多个文件merge same variants到同一记录。将所有变体加载到BigQuery中后，您可以export them to VCF file。

请注意，变量转换会创建一个separate table for each chromosome以优化查询成本。您可以轻松地为每个染色体创建一个VCF文件，然后将它们合并在一起以创建一个。

如果您需要有关此任务的帮助，可以联系Variant Transforms team。

bcftools bioinformatics vcf-variant-call-format vcftools