将模型上一阶段的预测作为软目标指导当前训练,或利用 EMA 教师进行自蒸馏,起到平滑和正则化效果。
深入师生网络蒸馏,解决教师与学生结构不一致时的知识传递难题,包括中间层特征对齐、注意力迁移和关系蒸馏等高级技巧。
系统介绍知识蒸馏的基本框架,利用大型教师模型输出的软标签指导学生网络训练,实现模型压缩与性能迁移,降低部署成本。