R gam 模型cooks.distance andfluence.gam

问题描述

我首先要说的是,我的统计学背景非常基础(即使我正在研究它),并且由于某些与工作相关的原因,我必须处理一个相当大的 gam 模型,该模型既有平滑因素也有分类因素。 gam 回归是在 R 中对大约有 50,000 行的数据集执行的。 我的目标是识别异常值,因为我们每天有大约 50,000 个新数据点,手动识别异常值是不可能的。 我无法切换到不同的模型,所以我无法考虑指向不同解决方案的建议。 现在,我的问题很简单:如何识别异常值? 这是一个很大的话题,尽管我最近遇到了厨师距离和影响力。gam 似乎为我指明了正确的方向。 我阅读了这篇有用的帖子:Remove data points with too much leverage on gam fit 以及 https://stats.stackexchange.com/questions/22161/how-to-read-cooks-distance-plots/22171#22171 现在,我真正的问题是:给定一个拟合的 Gam 模型,我是否可以依靠 cooks.distance(fit) 和 Impact.gam(fit) 来发现异常值?

假设我们有:

library(mgcv)
set.seed(11)
x1 = c(100,rnorm(100,5,1))
x2 = c(runif(100,100),300)
y  = x1 * x2 * rnorm(101,50,5)
d1 = data.frame(y,x1,x2)
mod1 = gam(y ~ s(x1) + s(x2),data = d1)
inf1 = influence.gam(mod1)
hist(inf1)
hist(cooks.distance(mod1))

我是否可以将那些值 > 0.2 的数据点视为至少需要进一步调查的数据点?那么厨师距离 >= 60 的那些值呢?

谢谢 还有什么

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...