问题描述
我需要了解使用 Cohen's kappa 来衡量两个分类数据集的可靠性背后的直觉。
- 公式 Po - Pe / 1 - Pe 可以解释为我们处理概率吗?我在某处看到过这种方法,而不是实际准确性和预期准确性的解释,所以我想从这个角度来构建我的问题。
“Po”将是在给定数据集中的元素的情况下,两个分析器赋予它们相同标签的实际概率。这个概率被估计为“符合的案例数/总元素数”。
“Pe”是分析器分配相同类别的概率,但在统计独立的情况下。假设类别是“a”和“b”。
Pe 将等于 P(a) + Pe(b),它是提取 a 元素的预期概率加上提取 b 元素的预期概率之和,两者都在统计的情况下独立。 (我想我没有真正理解为什么这应该是正确的)
其次,考虑到 P(a),我们会得到 P(a) = P-a1(a) * P-a2(a)
找到 a 元素的概率是分析器 1 将元素标记为“a”的概率的乘积 * 来自分析器 2 的相同概率。
A1 已将标签“a”分配给元素的概率可以估计为 A1 在整个元素数量中将元素标记为 A 的次数。
与标签“b”相同。
我对所有流程的解释是:
我们想知道找到它们都标记为相同的元素的概率。这应该是 P(a U b) = Pa + Pb。 A1 和 A2 都分配了一个元素类别“a”的概率将是 P(A1-a,A2-a) = PA1(a) * PA2(a) 的联合概率,最后这些被估计为相对频率。
这个思考过程是正确的还是我误解了某些观点?
预先感谢您的帮助。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)