问题描述
我有一个包含以下列的纵向数据集样本:PATIENTID(患者的 ID)、VISITNUMBER(他们去医院的次数)、TIME(自第一次访问以来的年数)、AGE(他们每次访问的年龄),每次访问时的性别(0 = 男性,1 = 女性)、健康(他们的健康状况)。
这是我在 R 中的示例数据集:
#data structure
PATIENTID <- c(126,126,255,389,470,470)
VISITNUMBER <- c(1,2,3,1,4,5,3)
TIME<- c(0,6,2)
AGE<- c(18,22,24,20,23,30,31,32,33,34,40,41,42)
SEX<- c(0,0)
HEALTH <- c(0.333,0.452,0.468,0.571,0.522,0.444,0.431,0.510,0.532,0.214,0.333,0.400)
mydata <- data.frame(PATIENTID,VISITNUMBER,TIME,AGE,SEX,HEALTH)
#converting PATIENTID and VISITNUMBER to factor
mydata$PATIENTID <- factor(mydata$PATIENTID)
mydata$VISITNUMBER <- factor(mydata$VISITNUMBER)
本质上,我试图在调整基线健康(访问 1 时的健康)的同时,在回归模型(健康 ~ 年龄 + 性别)中预测健康。我有两个选择:
- 创建一个单独的变量,称为 HEALTH1,它在访问 1 时基本上是 HEALTH,所以我的数据集如下所示。我如何为此编码?在这个例子中,我只是手动完成的,但我的数据集要大得多。
Health at visit 1 variable added
- 实际上并没有创建单独的变量,在回归编码过程中,我以某种方式将在访问 1 时过滤的健康作为单独的解释变量 - 如健康 ~ 年龄 + 性别 + 健康 (访问 1)。如果可能,我该如何在回归编码中为这个单独的解释变量编码?
欢迎提供任何替代建议。谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)