这个中间变量有任何信息增益吗?

问题描述

假设我有 2 个变量:A(作为输入)和 C(作为输出
所以它是A -> C
还有另一个变量B,和
corr(A,B) > corr(A,C)
corr(C,C)

A -> B -> C 使用现有模型会获得更好的性能吗?
换句话说,这个B是否有任何信息增益?

解决方法

在给定 A 的情况下,获得的关于 C 的信息是:log(1/P(A,C))。给定 A 和 B,获得的关于 C 的信息是:log(1/P(A,B,C))。所以只要P(A,C) > P(A,C),包含B就会有更多的信息。

现在,情况是否如此取决于您使用的 corr 指标。但是如果 A/C 依赖于 B,那么至少会有一些 B 值提供信息增益。一般来说,我总是在模型中包含因变量,除非依赖性,在这种情况下,某些模型可能无法正常工作(例如神经网络)。