我应该如何在分类变量和连续变量之间进行一致性分析?

问题描述

我目前在选择统计检验来验证使用两种不同测量方式的两种测量之间的一致性时遇到了困难。以下是我的变量的结构。我将使用我的数据的虚假示例来帮助演示我的问题。

测量一:1 个有 8 个类别的名义变量 - 主要汽车选择,例如,您主要选择的汽车品牌是什么。响应,例如,1 = 福特,2 = 霍顿,3 = 丰田,4 = 三菱,5 = 马自达,6 = 现代,7 = 斯巴鲁,8 = 大众。在这种情况下,参与者选择了一个类别作为他们的主要评级。 措施二:8 个连续变量取措施一的 8 个类别。例如,请评价您购买____ 1) 福特的可能性。参与者在所有 8 个变量中以 1(完全没有)到 5(极有可能)的等级评定他们对该项目的认可。

我的假设预测这两种测量方式会相互一致。也就是说,如果有人选择福特作为他们的首选汽车,他们也极有可能赞同购买福特汽车,而不是其他汽车制造商。

对于此一致性分析,我应该考虑哪些统计测试?到目前为止,我已经考虑使用加权 Cohen's kappa,但认为这不太适合我的示例。

干杯,

雅各。

附言。请原谅我的汽车选择,我来自澳大利亚,选择了我所在地区最常见的汽车制造商

解决方法

原则上,您可以使用此类数据做很多事情。

从你的讨论中我不清楚一件事。你有那些来自同一个人的数据吗?因此,您是否知道“A 会选择福特,并且他对所有品牌都有以下偏好?”或者这两个数据集是独立的,因此您只知道“x% 的人会购买福特,并且对汽车的总体偏好是......”。后者没那么有趣,我相信只有前者是值得讨论的。对于后一种情况,Cohen kappa 可能是你能做的最好的事情。

但是如果您拥有每个人的所有信息:

即使在这样一个相对简单的数据中也有很多方面。你不能把它减少到一个数字而不失去大部分。我将首先制作一个表格或二维图,在 x 轴上为其中一个品牌(例如斯巴鲁)的评级为 1...5,在 y 轴上为 8 个不同品牌的概率。我会发现很有趣:哪些汽车是人们评价“make A”只有 1 的最佳选择,并将其与评价“make B”的人仅得到 1 进行比较。评分 5?

这项研究的一个特别有趣的结果是评分“make A”的人实际选择“make A”的概率为 5。并在所有品牌之间进行比较。品牌之间可能存在差异,例如某些品牌的买家可能更受“理性”的驱使,而另一些则受“时尚”的驱使。我相信与“原因”相比,“时尚”会导致更高的相关性(因此概率更高)......