免费编程教程

最新
分层学习率

在微调预训练模型时,对不同层使用不同大小的学习率,底层小更新保持通用特征,顶层大更新适应新任务。

5 0 0
2026-06-21