为了获得更好的预测模型,分类报告中的 Precision 或 Recall 更重要

问题描述

对于机器学习中的分类问题,在精度和召回率之外的分类报告中,哪个更重要以获得更好的模型?

解决方法

它实际上取决于你的分类问题。

首先,您需要了解precisionrecall 之间的区别。 Wikipedia 可能是一个好的开始,但我建议使用 this resource by developers.google

precision-recall


现在假设您正在尝试使用分类器跟踪新冠病例。 分类器会告诉您患者是否携带新冠病毒。

您是否更感兴趣:

A) 识别所有可能的新型冠状病毒病例?

B) 确定如果您确定一个新冠肺炎病例,该病例实际上是一个真正的新冠肺炎病例吗?

如果A) 更重要,您应该专注于回忆。另一方面,如果您对 B) 更感兴趣,那么 精确 可能就是您要寻找的。​​p>

请注意:


假设您正在测试 1000 个可能的案例,假设其中 500 个是阳性的,我们只是还不知道。您使用分类器,它会告诉您所有 1000 人都是积极的。

所以你有:

true_positives = 500

false_negatives = 0

recall = true_positives / (true_positives + false_negatives)

recall = 500 / (500 + 0) = 1

所以在这里你有一个很好的回忆,但你不准确,也不准确。


我想表达的是,人们不应该关注一个指标而不是另一个指标,而应始终对问题保持广泛的看法。

但是,如果您只想关注一个指标来总结准确率和召回率,那么 F score 就是为此而生的。