问题描述
对于机器学习中的分类问题,在精度和召回率之外的分类报告中,哪个更重要以获得更好的模型?
解决方法
它实际上取决于你的分类问题。
首先,您需要了解precision 和recall 之间的区别。 Wikipedia 可能是一个好的开始,但我建议使用 this resource by developers.google。
现在假设您正在尝试使用分类器跟踪新冠病例。 分类器会告诉您患者是否携带新冠病毒。
您是否更感兴趣:
A) 识别所有可能的新型冠状病毒病例?
B) 确定如果您确定一个新冠肺炎病例,该病例实际上是一个真正的新冠肺炎病例吗?
如果A) 更重要,您应该专注于回忆。另一方面,如果您对 B) 更感兴趣,那么 精确 可能就是您要寻找的。p>
请注意:
假设您正在测试 1000
个可能的案例,假设其中 500
个是阳性的,我们只是还不知道。您使用分类器,它会告诉您所有 1000
人都是积极的。
所以你有:
true_positives
= 500
false_negatives
= 0
recall = true_positives / (true_positives + false_negatives)
recall = 500 / (500 + 0) = 1
所以在这里你有一个很好的回忆,但你不准确,也不准确。
我想表达的是,人们不应该关注一个指标而不是另一个指标,而应始终对问题保持广泛的看法。
但是,如果您只想关注一个指标来总结准确率和召回率,那么 F score 就是为此而生的。