搜索评价指标 NDCG：量化排序质量的核心标准

FreeGuideOnline 最新 2026-06-24

搜索评价指标 NDCG：量化排序质量的核心标准

在搜索引擎、推荐系统等信息检索领域，如何公平地衡量排序结果的好坏是一个根本问题。仅靠“准确率”或“召回率”无法体现位置顺序对用户体验的影响。NDCG（Normalized Discounted Cumulative Gain）应运而生，它通过考虑相关性等级和文档位置来综合评价排序质量，是目前业界使用最广泛的指标之一。本篇教程将从零开始，带你理解 NDCG 的每一个细节。

为什么需要 NDCG？

经典指标的局限性

Precision@k：只关心前 k 个结果中相关文档的比例，但对“相关程度”不敏感，也无法区分位置内的高相关和低相关文档。
Recall：关心所有相关文档被找回的比例，完全不考虑排序顺序。
MAP (Mean Average Precision)：假设文档只有二值相关性（相关/不相关），忽略了现实中存在“非常相关、部分相关、勉强相关”等分级相关性的场景。

对于一个现代搜索引擎，把“最完美答案”排在第一位，远比排在第十位更有价值。NDCG 正是为解决这类多级相关、位置敏感的评估需求而设计的。

从 CG 到 NDCG：逐层拆解

理解 NDCG 最好的方式是从最基础的收益（Gain）概念出发，逐步引入折扣和归一化。

CG（累积增益，Cumulative Gain）

CG 是排序列表中前 k 个文档的相关性得分之和。假设某个查询返回的文档列表按某种顺序排列，每个文档有一个标签（如 0-3 分表示无用到完全相关），CG@k 就是这些分数的直接累加。

例如，相关性标签为：[3, 2, 3, 0, 1]，则 CG@5 = 3 + 2 + 3 + 0 + 1 = 9。

CG 的致命缺点：完全不关心顺序。将顺序调换成 [0, 1, 2, 3, 3]，CG@5 仍是 9，但显然前者的排序质量远优于后者。

DCG（折扣累积增益，Discounted Cumulative Gain）

DCG 在 CG 的基础上对位置进行惩罚：相关文档出现在越靠后的位置，其对总分的贡献就越小。直觉是“用户关注前面的结果，越往后点击概率越低”。

常用的 DCG 计算公式为：

[ DCG@k = \sum_{i=1}^{k} \frac{rel_i}{\log_2(i+1)} ]

其中 ( rel_i ) 是第 i 个位置文档的相关性得分，分母 (\log_2(i+1)) 是一个递增的折扣函数。当 i=1 时，折扣因子为 (\log_2(2)=1)，无折扣；当 i=10 时，折扣约等于 (\log_2(11)\approx 3.46)，收益被大幅压缩。

另一种更早期的公式使用 ( \frac{2^{rel_i} - 1}{\log_2(i+1)} )，用于更强调高相关文档的价值。现代多数实现直接使用原始相关性得分作为分子，即你方所示的最简形式。

示例计算 DCG@5

沿用上面的列表 [3, 2, 3, 0, 1]，计算 DCG@5：

位置 i	rel_i	折扣因子 1 / log2(i+1)	折扣后收益
1	3	1.0	3.0
2	2	1 / log2(3) ≈ 0.63	1.26
3	3	1 / log2(4) = 0.5	1.5
4	0	1 / log2(5) ≈ 0.43	0.0
5	1	1 / log2(6) ≈ 0.39	0.39

[ DCG@5 = 3.0 + 1.26 + 1.5 + 0.0 + 0.39 = 6.15 ]

如果我们将顺序乱排为 [0, 1, 2, 3, 3]，计算得到的 DCG@5 将会更小（读者可自行验证，约为 4.53），这直观反映了位置对评分的调节作用。

IDCG（理想折扣累积增益，Ideal DCG）

DCG 虽然能比较不同排序的好坏，但其绝对数值会受查询结果集大小和相关性强弱的影响，无法跨查询进行比较。例如，一个“容易”查询的理想结果天然比“困难”查询的 DCG 更高，直接比较 DCG 值没有意义。

IDCG 就是用来解决这个问题的：取当前查询下所有相关文档按最理想顺序排列时计算的 DCG。换言之，将文档按相关性得分降序排列（最高的放在位置 1，次高的位置 2……），然后对这个序列计算 DCG，所得即 IDCG@k。

继续上例，相关性列表 [3,2,3,0,1]，按降序排列为 [3,3,2,1,0]，计算该序列的 DCG@5：

位置 i	rel_i	折扣后收益
1	3	3.0
2	3	≈1.89
3	2	1.0
4	1	≈0.43
5	0	0.0

[ IDCG@5 = 3.0 + 1.89 + 1.0 + 0.43 + 0.0 = 6.32 ]

NDCG（归一化折扣累积增益）

最后，NDCG 将 DCG 对 IDCG 做归一化，得到一个 0 到 1 之间的值：

[ NDCG@k = \frac{DCG@k}{IDCG@k} ]

当排序结果恰好是理想排序时，NDCG@k = 1；排序越差，值越接近 0。由此，不同查询的 NDCG 可以直接平均，获得全局的排序性能指标。

对于上面的例子： [ NDCG@5 = \frac{6.15}{6.32} \approx 0.973 ] 说明排序质量非常接近完美。

NDCG 的计算流程与实践细节

步骤总结

针对每一个查询，获取模型返回的前 k 个文档。
为每个文档标注分级相关性（如0-3分）。
计算该序列的 DCG@k。
将所有候选文档按相关性降序排列，计算 IDCG@k。
计算比值 NDCG@k。
对所有测试查询的 NDCG@k 求平均，得到最终指标。

关于对数底的选择

公式中常出现 (\log_2)，但实际应用中也可使用自然对数 (\ln)。只要在 DCG 和 IDCG 中使用相同的底，归一化后结果不变。推荐使用整数 i 的 (\log_2(i+1))，因为其源自信息检索经典文献，且便于解析。

处理缺失的相关性标签

在工业级数据中，常有大量文档未经过人工标注。通常约定未标注文档的相关性为 0（无用）。如需更精细的处理，可尝试仅针对已标注文档计算，但务必保持 DCG 和 IDCG 策略一致。

NDCG 的变体与扩展

NDCG@k 中 k 的选择：k 代表只考虑前 k 个结果。通常 k=5 或 k=10，模拟用户关注首页的行为。
指数增益变体：使用 ( gain = 2^{rel} - 1 ) 而非原始 rel，更强烈地奖励高相关文档，在搜索引擎中“完美答案”和“还行答案”的差距比线性差距更大。
分级向二值退化：当相关性只有 0 和 1 时，NDCG 退化为基于位置的折扣准确率，但仍保留顺序敏感的优势。

优缺点与适用场景

优点

支持多级相关性，更贴近实际业务（如 0-无用，1-相关，2-高度相关，3-完美）。
对位置敏感，通过对数折扣模拟用户浏览的下滑关注度。
可归一化，允许在不同查询之间公平比较。
计算方式直观，便于工程实现和线上监控。

缺点

需要人工标注的相关性分级，标注成本较高，且分级标准需保持一致。
仅考虑逐点相关性，无法评估列表级别的多样性或新颖性。
对数折扣是一种启发式函数，并不总能精确复现所有场景的用户行为（例如移动端和桌面端行为不同）。

典型应用场景

搜索引擎结果页（SERP）质量评估。
推荐系统召回和排序模型的离线评测。
自动补全、广告排序等任何涉及顺序敏感多级指标的任务。

总结

NDCG 通过将分级相关性与位置折扣相结合，归一化后获得一个可跨查询比较的评分，成为评估排序算法的核心指标。从 CG 到 DCG 再到 IDCG 和 NDCG，每一步都针对真实场景的痛点进行补强。掌握 NDCG 不仅可以帮助你读懂论文中的实验表格，更能在实际项目中精准度量排序质量，指导模型迭代。

现在就动手尝试一个例子：随机生成一个 5 个文档的相关性列表，分别计算一个优秀排序和一个随机排序的 NDCG@5，感受数值的变化吧。