问题描述
这是 StackExchange 的交叉帖子。
我目前正在对常见的 kaggle Titanic 生存率竞赛进行一些初步的探索性数据分析,并想知道如何解释我在下面制作的以下热图相关图。
我理解正相关(与 pearson r 系数有关)——因为随着 X 的增加,Y 也增加,并且越接近 +1,表明存在很强的正线性关系。
但是对于负相关值,我很困惑,因为根据我的理解(这可能是错误的,如果是这样,请纠正我)关系是颠倒的 - 因此随着 X 的增加 Y 趋于减少,这意味着值是否接近 -1那么这是一个很强的负线性关系。
我正在为如何从下面的热图中解释这一点而苦苦挣扎。包含我尝试预测的二元结果的特征是 Survived 特征。其余列是用于预测的数字列。
在这里我们可以看到 Age/Survived = -0.06 和 SibSp/Survived = -0.03
我该如何解释?我说以下是否正确:
附带说明一下,如果值是 -0.90 与 -1 如此接近 - 我该如何正确地解释解释,例如:年龄减少然后存活率增加?
解决方法
您基本上是正确的,但您认为接近零相关性的意义太大了。
首先,您需要记住这个皮尔逊相关是线性相关。
这意味着 X 和 Y 就像一条直线,具有正斜率具有 Corr=1
,具有负斜率具有 Corr=-1
。
如果还有y = X^2这样的其他字符串相关性,pearson的相关性就会很差,容易产生误导。
至于您的结果,survived 和 SibSp 之间的 -0.035
相关性如此低,我会说这些特征是几乎不相关(在线性意义上)。
如果是-0.9
,我会说显着,虽然幸存者的数量在增加,但SibSp却呈强线性下降关系。