标注一致性分析：Cohen's Kappa 与 Krippendorff's Alpha

FreeGuideOnline 最新 2026-06-27

标注一致性分析完全指南：Cohen‘s Kappa 与 Krippendorff’s Alpha

在数据标注项目中，确保多位标注员之间的判断一致是模型训练质量的基石。本教程将系统讲解两种最主流的标注一致性指标：Cohen's Kappa 和 Krippendorff's Alpha，覆盖原理、公式、适用场景及Python实操，帮助你为项目选择正确指标。

1. 为什么需要标注一致性分析？

当我们雇佣多名标注员或使用众包平台时，主观判断会带来分歧。如果无法量化这种分歧，模型将学到互相矛盾的标签。一致性分析能回答：

不同标注员之间的吻合程度是否足够高？
某位标注员是否与其他人格格不入？
哪些类别或样本最容易产生歧义？

简单的一致率（Percentage Agreement）存在致命缺陷：它忽略了随机一致的概率。例如，二分类任务中即使两人完全随机标注，也可能有50%的“一致”。Cohen's Kappa 和 Krippendorff's Alpha 正是为了剔除这种随机因素而设计。

2. Cohen's Kappa：两位标注员的黄金标准

2.1 思想与定义

Cohen's Kappa（κ）由 Jacob Cohen 于1960年提出，专门用于衡量 两名标注员 对分类标签的一致性，并校正随机因素。其核心公式为：

$$ \kappa = \frac{p_o - p_e}{1 - p_e} $$

其中：

(p_o)：实际观察到的一致率（Observed Agreement）。
(p_e)：纯粹由随机产生的期望一致率（Expected Agreement）。

κ的取值范围：通常 -1（完全不一致）到 1（完全一致），0 表示与随机水平相当。一般评判参考：

κ 值范围	一致性强度
< 0.00	差
0.00–0.20	微弱
0.21–0.40	一般
0.41–0.60	中等
0.61–0.80	高度
0.81–1.00	几乎完美

2.2 计算步骤详解

假设两位标注员 A 和 B 对 100 个样本进行“猫/狗/背景”三分类，得到混淆矩阵：

	A:猫	A:狗	A:背景	合计
B:猫	30	5	2	37
B:狗	8	40	1	49
B:背景	2	3	9	14
合计	40	48	12	100

步骤1：计算观察一致率 (p_o)

对角线之和除以总数： (p_o = (30+40+9)/100 = 0.79)

步骤2：计算期望一致率 (p_e)

对每个类别，计算边际概率乘积再求和：

猫类：(P_{B=猫} \times P_{A=猫} = (37/100) \times (40/100) = 0.37 \times 0.40 = 0.148)
狗类：(0.49 \times 0.48 = 0.2352)
背景：(0.14 \times 0.12 = 0.0168) (p_e = 0.148 + 0.2352 + 0.0168 = 0.40)

步骤3：计算κ $$ \kappa = \frac{0.79 - 0.40}{1 - 0.40} = \frac{0.39}{0.60} = 0.65 $$ 结论：两位标注员达到“高度一致”。

2.3 加权 Cohen's Kappa

当标签为有序类别（如轻度/中度/重度），直接忽略类别间顺序会造成信息损失。加权Kappa 允许为不同严重程度的不一致赋予不同惩罚权重。常用权重：

线性权重：权重 = (1 - \frac{|i-j|}{k-1})，其中i,j为类别序号，k为类别总数。
二次权重：权重 = (1 - \left(\frac{i-j}{k-1}\right)^2)，对严重偏离惩罚更重。

加权Kappa更灵敏地反映有序分类的一致性，在医学分级诊断中格外常见。

2.4 Python实现 (使用 scikit-learn)

from sklearn.metrics import cohen_kappa_score
import numpy as np

# 模拟两位标注员的结果
rater1 = ['cat', 'dog', 'dog', 'cat', 'bg', 'cat', 'dog', 'bg', 'cat', 'dog']
rater2 = ['cat', 'dog', 'cat', 'cat', 'bg', 'cat', 'dog', 'bg', 'bg', 'dog']

# 简单Kappa
kappa = cohen_kappa_score(rater1, rater2)
print(f"Cohen's Kappa: {kappa:.3f}")

# 加权Kappa（二次权重）
# 先将标签编码为数字
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
rater1_int = le.fit_transform(rater1)
rater2_int = le.transform(rater2)
weighted_kappa = cohen_kappa_score(rater1_int, rater2_int, weights='quadratic')
print(f"Weighted Kappa (quadratic): {weighted_kappa:.3f}")

3. Krippendorff's Alpha：面向任意数量标注员的通用指标

3.1 为什么需要超越 Kappa？

Cohen's Kappa 受限于两点：必须是两位标注员，且所有样本必须被同等对待。现实场景中，你可能拥有：

3名以上标注员。
每个样本由不同的标注员子集完成（缺失值）。
不止是名义型标签，还能包含区间、比率等测量尺度。

Krippendorff's Alpha（α） 正是为解决这些复杂场景而生，被广泛认为是内容分析领域的通用一致性指标。

3.2 核心公式

Krippendorff's Alpha 的通用形式为：

$$ \alpha = 1 - \frac{D_o}{D_e} $$

其中：

(D_o)：观察到的不一致（观测分歧）。
(D_e)：随机产生的不一致（期望分歧）。

对于不同的数据类型（名义、有序、区间、比率），(D_o) 和 (D_e) 的计算使用不同的“差异函数”(\delta)。其基础构造基于所有可用配对，并支持自定义缺失值处理。

3.3 差异度量的四种层级

名义型 (Nominal)：简单相等判断。(\delta = 0) 若标签相同，否则1。
有序型 (Ordinal)：基于排序的差异，计算时考虑类别顺序。
区间型 (Interval)：考虑数值差距的平方，如温度、年份。
比率型 (Ratio)：与区间类似，但有绝对零点（如长度、金额）。差异基于比例对数。

实际上，对于最常见的名义型标注任务，Krippendorff's Alpha 的简化公式可以基于标签值的共现矩阵计算，结果与Fleiss' Kappa存在关联，但处理缺失和多种数据尺度的能力更强。

3.4 示例与Python实现

使用 krippendorff 库（直接安装：pip install krippendorff）。

import krippendorff
import numpy as np

# 构建数据矩阵：3名标注员对8个样本的标注（数值编码），NaN表示某标注员未标注该样本
# 每行是一个样本，每列是一位标注员
reliability_data = [
    [1, 1, np.nan],  # 样本0：标注员1和2标注为1，标注员3缺失
    [2, 2, 2],
    [3, 3, 3],
    [1, 1, 2],
    [2, 2, 3],
    [3, 3, 2],
    [1, 1, 1],
    [2, 2, np.nan]
]
# 注意：krippendorff库期望输入是 (标注员, 样本) 或 (样本, 标注员)，默认按行是样本，列是标注员。
# 我们需要转置为 (标注员, 样本) 格式或指定参数。此处我们显式转置。
data_array = np.array(reliability_data).T  # 变为 (3, 8)

# 计算名义型Alpha
alpha_nominal = krippendorff.alpha(reliability_data=reliability_data,
                                    level_of_measurement='nominal')
print(f"Krippendorff's Alpha (nominal): {alpha_nominal:.3f}")

# 有序型数据
alpha_ordinal = krippendorff.alpha(reliability_data=reliability_data,
                                    level_of_measurement='ordinal')
print(f"Krippendorff's Alpha (ordinal): {alpha_ordinal:.3f}")

缺失值（NaN）自动参与配对计算，只有成对存在的有效值才计入。

3.5 解读与阈值

与Kappa类似，通常认为：

(\alpha \geq 0.80)：良好的一致性，可用于研究结论。
(0.67 \leq \alpha < 0.80)：可接受，但需要审慎讨论。
(\alpha < 0.67)：不确定性较高，需检查标注过程或合并类别。

需要注意，α可能会因为标注员过于保守（比如几乎所有样本标同一类）而虚高，需要结合类别分布一起分析。

4. 对比与选择决策树

特性	Cohen's Kappa	Krippendorff's Alpha
适用标注员数量	2	任意数量
处理缺失值（部分标注）	需成对删除	原生支持
数据类型	名义，有序（加权）	名义、有序、区间、比率
常用库	scikit-learn	krippendorff, nltk
计算复杂度	简单	相对复杂

选择建议：

只有两位标注员且所有样本均被两人标注 → Cohen's Kappa 简单直观。
标注员≥3人，或者样本存在不同标注员子集（如众包场景） → Krippendorff's Alpha。
数据类型是区间或比率（如评分） → 必须使用 Krippendorff's Alpha。
希望报告统一指标，且未来可能拓展到多标注员 → 优先选用 Alpha 以保持分析框架一致。

5. 常见误区与最佳实践

5.1 误区1: 只看一致性，不看分布

即使一致性指标很高，如果某一类别占了绝对多数（如95%样本都是“正常”），随机一致率会很高，导致指标膨胀。应结合类别分布的描述统计和混淆矩阵进行分析。

5.2 误区2: 将低一致性归咎于标注员能力

低一致性往往反映了标注指南的模糊性、类别定义不清或样本本身模棱两可。首先应该审查标注规范和难例，而非简单地开除标注员。

5.3 误区3: 忽略置信区间

点估计可能受样本量影响。建议在正式报告中汇报Kappa或Alpha的置信区间（如使用Bootstrap方法）。许多库（如 irr in R 或 Python 的 statsmodels）可辅助计算。

5.4 最佳实践流程

设计阶段：明确数据类型，拟定详细标注规范，设计黄金标准测试题。
试标注：小批量（约50-100样本），计算一致性指标。
分歧分析：查看混淆矩阵，找出最易混淆的类别对，修正指南。
正式标注：持续监控一致性，特别关注新加入的标注员。
报告：给出 Cohen's Kappa / Krippendorff's Alpha 及其置信区间、被排除的标注员理由、以及二次标注比例。

6. 总结

标注一致性分析不是一次性的步骤，而是贯穿整个标注生命周期的质量控制工具。Cohen's Kappa 让你快速衡量两名标注员的一致性，而 Krippendorff's Alpha 则以无与伦比的灵活性成为多标注员、多数据类型的通用语言。掌握这两者，你将能可靠地提升数据质量，为模型性能构建坚实基础。

实践练习： 取你手头的一个标注文件，先计算 Percentage Agreement，再计算 Cohen's Kappa。如果两者差距很大，说明随机一致的影响不可忽视——这正是这些指标存在的理由。