用于过滤给定结果的重要单核苷酸多态性 (SNP) 的特征选择算法

问题描述

我对全基因组关联研究 (GWAS) 类型分析有点陌生。在我的一个项目中,我需要为给定的结果变量(例如:心脏病发作)选择最重要的 SNP(不是家庭,而是个人 SNP)编码为 0 或 1 的事件)。在我的数据集中,SNP 被编码为 0,1 或 2。

请注意,我在数据库中有 700,000 多个 SNP 以及另外 30 个变量和 4800 多个参与者。我们将保留模型中的其他 30 个变量,因为我们的客观性是选择 SNP 以针对这些变量调整后的结果变量。此外,我们也有时间参加活动。

我知道在这种情况下的标准方法是对 每个 SNP 的结果变量一次运行 cox 回归(如在循环中) 与其他 30 个变量并选择具有最低 p 值的 SNP(使用阈值值)。但是,这种方法效率不高,在普通计算机上需要数月时间才能完成。

因此,我只是想知道在此范围内的文献中使用了哪些特征选择方法,如果您能在此处发布一些参考资料,那就太好了。

非常感谢您的帮助。 圣

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)