最佳线性回归模型的相关性与作为输入的特定相关性的变量数量

我正在评估一个基于与目标相关性低 (0.05-0.2) 的少量特征 (3-4) 的线性模型。预测结果很糟糕，我试图用简单的术语解释为什么这是可以预期的。

我意识到我自己对此的感觉很大程度上是基于直觉，所以我想知道，基于特征可以预期什么样的模型质量背后是否存在理论？

类似于：

给定 n 个特征 x_i 和 cor(x_i,y) = r，你能期待 cor(y_p,y ) 为，其中 y_p = y = f(x)

的最佳线性模型

或者更一般：

给定 n 个独立特征 x_i 和 cor(x_i,y) = r_i>

或者更笼统：

给定 n 个非独立特征 x_i with cor(x_i,y) = r_iand cor(x _i,x_j) = q_ij

我的第一个想法是这些问题中的前两个应该是可行的，方法如下：

y=x_i + e_i 其中 e_i 是高斯噪声，均值为 0，标准差为 s_i子>.

从那里开始，但我被困在 s_i 和 cor(y,x_i) 之间的关系是什么，我不确定甚至有帮助，因为在“最佳”线性模型中如何组合这些仍然存在问题。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）