GLM LM预测值之和与高色散

问题描述

为什么预测值的总和与因变量的总和相同?

ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20,labels = c("Ctl","Trt"))
weight <- c(ctl*100,trt*20)
lm.D9 <- glm(weight ~ group,family = gaussian())
summary(lm.D9)
y<-predict(lm.D9,newdata=group,type="response")

sum(weight)
sum(y)

分散性也很高(在我的实际数据中)。有什么线索可以解决这个问题吗?我的原始数据为实际模型与预期模型建立了联系。我尝试了2种不同的模型,

  1. 预期的依存率与具有高斯的GLM
  2. 实际-预期的差异是依存的。

但是在第二种情况下,色散很高,并且两个模型都无法验证。

帮助表示赞赏!

解决方法

您有两组,执行线性回归时,预测值是各组的平均值:

predict(lm.D9,newdata=data.frame(group=c("Ctl","Trt")))
     1      2 
503.20  93.22

您可以检查以下内容:

tapply(weight,group,mean)
   Ctl    Trt 
503.20  93.22 

如果您对预测值求和,本质上是观察值的数量*平均值,它可以为您返回所有值的总和。

我们可以检查数据的外观,对我来说看起来还可以,没有疯狂的异常值:

boxplot(weight ~ group)

enter image description here

您可以查看此post,以lm为单位的色散是残差平方的总和除以自由度,基本上是与预测值的偏差的平方:

sum(residuals(lm.D9)^2)/lm.D9$df.residual
[1] 1825.962

鉴于您的数据平均值为298.21,sqrt(1825.962) = 42.73128的平均偏差还可以