最佳线性回归模型的相关性与作为输入的特定相关性的变量数量

问题描述

我正在评估一个基于与目标相关性低 (0.05-0.2) 的少量特征 (3-4) 的线性模型。预测结果很糟糕,我试图用简单的术语解释为什么这是可以预期的。

我意识到我自己对此的感觉很大程度上是基于直觉,所以我想知道,基于特征可以预期什么样的模型质量背后是否存在理论?

类似于:

给定 n 个特征 xi 和 cor(xi,y) = r,你能期待 cor(yp,y ) 为,其中 yp = y = f(x)

的最佳线性模型

或者更一般:

给定 n 个独立特征 xi 和 cor(xi,y) = ri>

或者更笼统:

给定 n 个非独立特征 xi with cor(xi,y) = riand cor(x i,xj) = qij

我的第一个想法是这些问题中的前两个应该是可行的,方法如下:

y=xi + ei 其中 ei 是高斯噪声,均值为 0,标准差为 si子>.

从那里开始,但我被困在 si 和 cor(y,xi) 之间的关系是什么,我不确定甚至有帮助,因为在“最佳”线性模型中如何组合这些仍然存在问题。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)