模型评估指标：准确率、精确率、召回率与 F1

FreeGuideOnline 最新 2026-06-16

分类模型评估核心指标

在机器学习分类任务中，模型性能不能仅凭“预测对了多少”来简单判断。我们需要一套多维度的评估体系，尤其是在类别不平衡、误判代价不同的场景下。本节深入讲解四个最基础的指标：准确率、精确率、召回率与F1值。

在讨论具体指标前，必须先理解混淆矩阵。对于二分类问题，它由四个基础数值构成：

所有后续指标都可以从这个矩阵推导出来。牢记这一结构是避免概念混淆的关键。

$$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$

解释：所有预测正确的样本占总样本的比例。

适用场景：当类别分布均衡，且两类错误代价相当时，准确率是最直观的衡量标准。

局限性：当正负样本极度不平衡时，它会产生严重误导。比如一个癌症检测数据集里，健康人占99%，一个总是预测“健康”的模型准确率高达99%，却完全无法找出任何一位真正的患者。

因此，准确率往往需要配合其他指标共同使用。

$$ \text{Precision} = \frac{TP}{TP + FP} $$

解释：在所有被预测为正例的样本中，实际真的是正例的比例。也叫查准率。

核心理念：强调预测为正的结果要足够“纯粹”。精确率高意味着很少把负例错判为正例。

应用场景：

$$ \text{Recall} = \frac{TP}{TP + FN} $$

解释：在所有实际为正例的样本中，被正确找出的比例。也叫查全率或真正例率（TPR）。

核心理念：强调正样本被找全的程度。召回率高意味着很少漏掉真正的正例。

应用场景：

精确率与召回率在很多场景下是相互制约的。提高分类阈值会让预测更“保守”，精确率上升但召回率下降；降低阈值则相反。

我们希望有一个指标能同时兼顾精确率和召回率，尤其是当正负样本不均衡且两类错误都重要时。

F1值是精确率和召回率的调和平均数：

$$ F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $$

为什么用调和平均而不用算术平均？
调和平均对较低的值更敏感。只有当精确率和召回率都比较高时，F1值才会高。如果精确率接近1而召回率接近0，算术平均还能有0.5左右，但调和平均会趋近于0，这更真实地反映了模型存在严重短板。

应用场景：

当精确率和召回率重要性不同时，可以使用 Fβ 值进行加权。常用的有 F0.5（偏重精确率）和 F2（偏重召回率）：

$$ F_\beta = (1 + \beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{(\beta^2 \cdot \text{Precision}) + \text{Recall}} $$

场景特征	关注指标	原因
类别均衡，错误代价相同	准确率	直接反映整体表现
正样本稀少，但识别正例极重要	召回率	必须尽量找全所有正例，即便引入假阳
预测为正的结果必须很可靠	精确率	减少假阳性带来的成本或风险
精确和召回同等重要	F1值	单一指标平衡精准度与覆盖率
模型对比与调参	Precision-Recall曲线，F1值	PR曲线在样本不均时比ROC曲线更敏感，F1可辅助选择最佳工作点

假设一个二分类模型对100封邮件进行垃圾检测，结果如下：

计算：

这个结果告诉我们：模型找出了75%的垃圾邮件，但预测为垃圾的邮件中只有66.7%是真正垃圾，兼顾二者的F1约为0.705。如果该场景更注重不丢失重要邮件（正常邮件不被误判），则需进一步提升精确率。

打好这四个指标的基础，后续学习AUC、KS、对数损失等高级评估方法时就会事半功倍。实际项目中，请先明确业务目标：是“宁可错杀不可放过”，还是“精确制导避免误伤”，再选择对应的评估体系。