问题描述
我有来自特定种族的VCF文件列表,例如美洲印第安人,中国人,欧洲人等
在每个种族下,我都有大约100多个文件。
目前,我针对一个文件计算了VARIANT QC
指标,例如call_rate
,n_het
等,如冰雹教程中所示(请参见下图)
但是,现在我想为每个种族创建一个文件,然后计算VARIANT_QC
指标。
我已经提到了这个post和这个post,但是认为这并不能解决我的查询
如何针对特定种族的所有文件执行此操作?
可以帮我吗?
有没有hail/python/R/other tools
的方法可以做到这一点?
解决方法
您可以使用Variant Transforms来实现此目标。 Variant Transforms是用于将VCF文件解析和导入到BigQuery中的工具。它还可以执行反向转换:将BigQuery表中存储的变体导出到VCF文件。因此,基本上您需要:multiple VCF files -> BigQuery -> Single VCF file
Variant变换可以轻松处理multiple input files。它还可以执行更复杂的逻辑,以跨多个文件merge same variants到同一记录。将所有变体加载到BigQuery中后,您可以export them to VCF file。
请注意,变量转换会创建一个separate table for each chromosome以优化查询成本。您可以轻松地为每个染色体创建一个VCF文件,然后将它们合并在一起以创建一个。
如果您需要有关此任务的帮助,可以联系Variant Transforms team。