问题描述
假设我有 2 个变量:A
(作为输入)和 C
(作为输出)
所以它是A -> C
还有另一个变量B
,和corr(A,B) > corr(A,C)
corr(C,C)
A -> B -> C
使用现有模型会获得更好的性能吗?
换句话说,这个B
是否有任何信息增益?
解决方法
在给定 A 的情况下,获得的关于 C 的信息是:log(1/P(A,C))
。给定 A 和 B,获得的关于 C 的信息是:log(1/P(A,B,C))
。所以只要P(A,C) > P(A,C)
,包含B就会有更多的信息。
现在,情况是否如此取决于您使用的 corr
指标。但是如果 A/C 依赖于 B,那么至少会有一些 B 值提供信息增益。一般来说,我总是在模型中包含因变量,除非依赖性太,在这种情况下,某些模型可能无法正常工作(例如神经网络)。