问题描述
我正在尝试对两个变量之间的逻辑回归建模。 目标变量称为“收入”,它是一个二元变量,其中“是”表示确实发生了交易,“否”表示没有发生。 我使用的预测器是一个名为“周末”的变量,它也是二进制变量,其中“真”表示交易已在周末进行,“假”表示没有进行。 这是我遵循的程序:
glm.fit1=glm(default~balance,family=binomial,data=Default)
glm.probs1=predict.glm(glm.fit1,type="response")
glm.pred1=rep("No",N)
glm.pred1[glm.probs1>.5]="Yes"
table(glm.pred1,Default$default)
confMat1<-addmargins(table(glm.pred1,Default$default))
confMat1
delta1=(confMat1[1,2]+confMat1[2,1])/N*100 # misclassification error rate
delta1
问题在于混淆矩阵的输出如下:
glm.pred1 FALSE TRUE Sum
No 6253 1144 7397
Sum 6253 1144 7397
如您所见,没有“是”行。所以错误率 delta1 将是 100%(所有的预测都是错误的/错误分类的)。 所以我想知道代码/程序是否有问题,或者预测器是否只是做出“准确”预测的那么糟糕。 glm 的输出表明,与零偏差相比,残差偏差略有减少,因此可能是预测变量根本没有用(顺便说一下,p 值确实很低)。 有什么提示吗?
> head(online_shoppers_intention_train)
# A tibble: 6 x 19
X1 Administrative Administrative_~ informational informational_D~ ProductRelated ProductRelated_~ BounceRates ExitRates PageValues
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 9617 5 408. 2 47.5 54 1547. 0 0.0173 0
2 12179 26 1562. 9 504. 183 9676. 0.0111 0.0142 19.6
3 9905 4 58 2 28.5 82 4729. 0 0.0145 9.06
4 5745 3 103. 0 0 25 1109. 0 0.00167 61.3
5 10067 7 165. 1 28.5 115 3428. 0 0.0163 4.97
6 7670 16 382. 3 199. 86 1618. 0.0151 0.0220 3.89
# ... with 9 more variables: SpecialDay <dbl>,Month <chr>,OperatingSystems <dbl>,browser <dbl>,Region <dbl>,TrafficType <dbl>,# VisitorType <chr>,Weekend <lgl>,Revenue <lgl>
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)