通过移动时间零来扩展用于预测建模的数据

问题描述

我正在开发不同诊断类别下 30 天意外住院风险的预测模型。目标人群是满足特定条件的长者(与我的问题无关)。开发预测模型背后的动机是能够优先考虑并针对高风险个体进行干预。预测因素包括先前的住院情况等。可以访问多年的数据。

一种建模方法 - 横截面设计 - 是选择一个时间点(零时间),例如2015 年 1 月 1 日。结果可以是二进制的 30 天入院(是/否),然后预测因子可以是人口统计数据和某个历史时期内的事件数量(例如住院)。 这里的一个挑战是班级失衡,录取的百分比(和数量)很少。采样技术或损失函数加权并没有提高预测性能(AUCPR、AUCROC)。

然后我使用了另一种方法(我不知道它是否有名称?),我想对此发表一些评论。该方法是通过连接滞后时间为零的矩阵来扩展数据中的行数,例如1 月 1 日,2 月 1 日,……,12 月 1 日变成一个大矩阵。录取比例仍然很低,但录取人数增加了很多。除了拥有更多数据外,还涵盖了招生的季节性。然后同一个人将在数据中多次出现,这违反了某些模型的独立性假设,例如逻辑回归。但是,如果预测性能(而不是推理)是目标,这是当前项目中的目标,那么这种违反是可以容忍的。完成训练-测试拆分以确保个体仅存在于测试或训练集中。同样,在交叉验证(用于超参数调整)中,个体也不存在于不同的折叠中。

在我自己的医学预测模型文献研究中,我之前没有发现这种方法,我觉得这很奇怪。因此,我正在寻求您对这种方法评论。谢谢。

奖励:2015 年所谓的 TRIPOD 声明——报告医学预测模型的清单——没有提到任何关于这种方法内容

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)