知识局部修改：用低秩更新改变特定概念

FreeGuideOnline 最新 2026-06-29

知识局部修改：用低秩更新精准改变模型特定概念

在当今的大模型时代，我们经常需要对模型的知识进行精细调整，而不是从头重新训练。知识局部修改就是一种靶向编辑技术，它允许我们只修改模型对某些特定概念的理解，而不影响其他知识。本教程将带你从零掌握“基于低秩更新的知识局部修改”这一核心方法。

大型语言模型在训练完成后，其内部存储的知识就像一块已经烧制好的陶瓷。传统的微调相当于重新烧制整个工艺品，成本高且容易导致“灾难性遗忘”。知识局部修改则相当于用一把精密的刻刀，只改变陶瓷上某个图案的颜色或形状，其余部分毫发无损。

核心目标：

对全参数进行修改会带来两个问题：

低秩更新的思路来源于这样一个观察：大模型参数矩阵中存在大量冗余，对概念的实际编码往往集中在某些低维子空间中。我们可以用一个低秩矩阵来“叠加”修改，只改变该子空间内的表达。

数学上，对于原始权重矩阵 W，我们不直接更新 W，而是学习一个低秩更新矩阵 ΔW = B × A，其中 B 和 A 的秩远小于 W 的维度。新前向计算变为：

h = W·x + (B·A)·x

这样做的好处是：

本章我们以修改一个语言模型中的具体事实为例，逐步操作。

并非所有层都适合修改。知识通常存储于前馈网络（MLP）的中间层。我们通过 因果追踪 或 激活差异分析 来找出对目标概念激活最强的层。

常用的简单方法：

选定目标权重矩阵 W （形状 [d_out, d_in]）。我们引入可学习参数 U 和 V，其中：

更新后的权重为：W' = W + U @ V。

为了精准修改特定知识，我们需要三个数据点：

综合损失函数如下：

L = L_edit + λ_retain * L_retain + λ_deact * L_deact

直接对大量保留样本计算 KL 散度成本极高。实践中，我们采用一种优雅的矩阵投影方法：在原始权重矩阵的零空间中做更新。

理想情况下，我们只希望对保留集合的键值进行更新，但不影响其值输出。可以将更新矩阵 ΔW 约束为只修改保留集合激活向量的正交补空间。具体实现使用 记忆化正交梯度：

这样即使不显式计算保留损失，也能天然保持一致性。

秩 r 决定了修改的“力度”。

评估指标：

如果你有一定的线性代数基础，可以采用更稳定的闭式解。给定我们希望的一组新键值对 (K, V)，在最小二乘意义下，求 ΔW 使得 (W+ΔW)K ≈ V，同时最小化 ΔW 对保留集 K0 的影响。可以推导出：

ΔW = (V - W K) K^T (K K^T + λ I)^{-1}

并将其投影到 K0 的零空间中。这个闭式解可以通过低秩近似进一步降秩，实现高效的批量编辑。

知识局部修改 + 低秩更新 为我们提供了一种可控、安全、低成本的方式来维护大型模型的正确性。它就像一个“知识微创手术”，利用参数的低秩特性在关键子空间中精准植入新概念。掌握此技术后，你可以快速修正模型中的错误信息、注入领域专有知识，而不必畏惧模型失忆或推理崩溃。

希望本教程帮助你理解了这一前沿方法的原理与实践。现在，你可以尝试在一个小型语言模型上动手实现自己的知识编辑器了。