根据每个分数对来自预测池的样本进行排名

问题描述

我有一个从 s1 到 s100 的样本池，我想在两个不同的类别 A 和 B 之间进行分类

在这个问题中，我不能对每个样本单独进行预测，而是以 10 个为一组进行预测，每个预测都会返回预测标签和每个标签的置信度。类似的东西：

[s1,s21,s3,s15,s5,s62,s90,s13,s9,s100];A;0.9
[s1,s12,s20,s53,s89,s27,s42,s76,s55];A;0.4
...

每个预测向量都是随机设置的，我可以根据需要执行尽可能多的组合。此外，样本可以在一个池中重复多次。

我想要完成的是使用 confidence 标签对每个 sample 预测的每个 category 重要性进行排名

搜索类似的问题，我最终认为计算 shaply values 将是一个很好的解决方案，但这些被认为是为特征而不是样本实现的。

任何想法如何实施？

编辑：

按照建议，我将尝试添加一个最小的问题示例，每组 4 个样本和 2 个样本。类似的东西：

Sample_group;Prediction;Confidence
[s1,s2];A;0.7
[s3,s4];A;0.6
[s1,s3];A;0.9
[s2,s4];A;0.5
[s1,s4];A;0.7
[s2,s3];A;0.6

尽管所有对都给出相同的预测，但查看 confidence 值显示 [s1,s3] 对的值最高，而 [s2,s4] 的值最低。检查其余的对可以推断出 s1 值似乎是与其他两个配对时与 s3 相比给出最高置信度的值。结果应该是这样的：

Sample;rank
s1;0
s3;1
s2;2
s4;3

解决方法

第一种方法：

您可以尝试重新定义您的问题：您实际上有一个模型，该模型采用 100 个特征向量并返回一个预测。每个单独的特征都是布尔值（如果样本 i 是包含的 10 个样本之一，则特征 i 是 1，而 0 不是；当然，这个框架可以支持任何样本的混合，而不仅仅是 10 组）。

您的预测有两个组成部分的事实可以通过将其替换为单个值来处理，即预测 A 和 B 的置信度乘以 1 或 -1，因此您的预测在 [ -1 1]（其中 -1 以最高置信度预测 A，1 以最高置信度预测 B，以此类推）。这只是一个建议，还有其他方法可以将 2D 输出减少到 1D，但这种方法似乎最简单。

现在您基本上有一个简单的回归模型，它采用 100 个特征并返回一个数字，您可以计算每个特征的 SHAP 值（在您的情况下，这将转化为“样本重要性”——即用于预测的样本）。至于如何计算 SHAP 值，我认为如果您实际上使用 .predict 方法实现了一个包含您的预测的类，则可以使用 SHAP 的 KernelExplainer。您的下一个问题是 KernelExplainer 为每个特征提供用于特定预测的 shap 值（并运行 .predict 100K 次以这样做，以便您的方法更快）。因此，您可能需要针对不同的样本组多次执行此操作并平均结果。

第二种方法：

另一种可能需要更多工作才能实现但更直接的解决方案是实现您自己的 Shapley 计算版本。 Shapley 值的原始博弈论公式实际上似乎更符合您的问题，而不是它在机器学习中的采用。也就是说，如果您将每个样本视为“贡献者”并将最终输出（如上所述减少为单个数字）视为“结果”，那么 Shapley 公式正是用于估计每个贡献者的贡献存在，跨越存在的其他贡献者的所有其他排列。

在一般情况下，如果您有 N 个贡献者，则存在 2^N 种组合，但在您的情况下，您可以说只有 100 个样本中存在 10 个样本的组合才是合法的。因此，您可以采用 Shapley 公式，而不是查看所有可能的组合，只需查看合法的组合即可。有 100 个选择 10，这仍然是一个巨大的数字（万亿），因此您可能需要从中随机抽样以获得合理的运行时间。据我了解该公式背后的想法，它将为您提供您所需要的。

game-theory machine-learning python shap

根据每个分数对来自预测池的样本进行排名

问题描述

解决方法

相关问答