GLM LM预测值之和与高色散

问题描述

为什么预测值的总和与因变量的总和相同？

ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20,labels = c("Ctl","Trt"))
weight <- c(ctl*100,trt*20)
lm.D9 <- glm(weight ~ group,family = gaussian())
summary(lm.D9)
y<-predict(lm.D9,newdata=group,type="response")

sum(weight)
sum(y)

分散性也很高（在我的实际数据中）。有什么线索可以解决这个问题吗？我的原始数据为实际模型与预期模型建立了联系。我尝试了2种不同的模型，

预期的依存率与具有高斯的GLM
实际-预期的差异是依存的。

但是在第二种情况下，色散很高，并且两个模型都无法验证。

帮助表示赞赏！

解决方法

您有两组，执行线性回归时，预测值是各组的平均值：

predict(lm.D9,newdata=data.frame(group=c("Ctl","Trt")))
     1      2 
503.20  93.22

您可以检查以下内容：

tapply(weight,group,mean)
   Ctl    Trt 
503.20  93.22

如果您对预测值求和，本质上是观察值的数量*平均值，它可以为您返回所有值的总和。

我们可以检查数据的外观，对我来说看起来还可以，没有疯狂的异常值：

boxplot(weight ~ group)

您可以查看此post，以lm为单位的色散是残差平方的总和除以自由度，基本上是与预测值的偏差的平方：

sum(residuals(lm.D9)^2)/lm.D9$df.residual
[1] 1825.962

鉴于您的数据平均值为298.21，sqrt(1825.962) = 42.73128的平均偏差还可以

glm lm r r