将模型上一阶段的预测作为软目标指导当前训练,或利用 EMA 教师进行自蒸馏,起到平滑和正则化效果。
剖析自蒸馏方法如何利用网络自身的深层知识指导浅层,或通过历史预测与集成实现对自身结构的精炼,无需额外教师网络。