总结模型压缩技术栈,串联量化、剪枝、蒸馏和硬件特定优化,设计适配服务端、边缘与移动端的轻量级部署方案。
学习非结构化剪枝中最典型的幅值剪枝、基于敏感度的剪枝及稀疏训练的流程,理解细粒度权重稀疏化带来的存储与加速挑战。
介绍神经网络剪枝的基本概念、分类与评估指标,理解通过移除冗余权重或神经元来缩小模型尺寸、加速推理的核心原理。
剖析自蒸馏方法如何利用网络自身的深层知识指导浅层,或通过历史预测与集成实现对自身结构的精炼,无需额外教师网络。
深入师生网络蒸馏,解决教师与学生结构不一致时的知识传递难题,包括中间层特征对齐、注意力迁移和关系蒸馏等高级技巧。
系统介绍知识蒸馏的基本框架,利用大型教师模型输出的软标签指导学生网络训练,实现模型压缩与性能迁移,降低部署成本。