设计有效的人类标注任务,从模型的不同回复中产生高质量的比较数据,支撑奖励模型训练。
使用 Cohen's Kappa、Fleiss' Kappa 等信度指标,衡量多个标注者之间的标注一致性。
设计人机协同的标注工作流,通过模型预标注和人工修正迭代,高效构建高质量数据集。
深入主动学习中基于不确定性的采样方法,选取预测概率最摇摆不定的样本进行人工标注。
对比最小置信度、边缘采样、熵采样及考虑多样性的查询策略,高效选择样本进行人工标注。
分析标注员偏差、标注规范等元数据,利用统计模型修正训练集中的系统性标注错误。