多轮对话微调：构建具备记忆的对话模型

FreeGuideOnline 最新 2026-06-22

json { "messages": [ {"role": "system", "content": "你是一个严谨的金融顾问。"}, {"role": "user", "content": "我月薪2万，怎么理财？"}, {"role": "assistant", "content": "根据你的收入，建议先建立紧急备用金..."}, {"role": "user", "content": "那基金定投适合我吗？"}, {"role": "assistant", "content": "适合。定投可平滑波动，您可以从每月3000元开始..."} ] }


**预处理要点：**
- 将对话进行Tokenization时，需用特殊的`<|im_start|>`、`<|im_end|>`或对话标记包裹每个角色。
- 使用`labels` mask技巧：仅对最后一条助理消息计算交叉熵损失，历史部分的标签设置为`-100`（忽略）。
- 为平衡会话长度，可对过长的历史进行**滑动窗口截断**，但保证最近几轮完整。
- 加入**轮次特殊性考量**：不同领域（医疗、游戏）的指代消解、省略补全要保留。

### 4. 模型选择与训练策略
#### 4.1 基础模型
选择已具备强大单轮指令跟随能力的基座（例如Llama 3、Qwen2、ChatGLM等）。多轮能力可在此基础上快速注入，不必从头预训练。

#### 4.2 注意力机制优化
多轮对话的token序列极长，需要高效的长上下文处理：
- 使用FlashAttention-2减少显存与加速。
- 若使用基于旋转位置编码（RoPE）的模型，可扩展其上下文窗口（如通过NTK-aware插值）到8k或更高，确保不丢失早期对话。

#### 4.3 微调方法选择
- **全参微调**：效果最好，但资源消耗大，适合数据量充足（万级以上多轮样本）且追求最佳性能时。
- **LoRA/QLoRA微调**：极致节省资源，对注意力层的查询、值矩阵注入低秩适配。以极低成本让模型习得多轮模式，在消费级显卡（24GB显存）即可训练7B模型。**推荐初学者从QLoRA开始**。
- **部分层微调**：仅微调模型的最后几层和前馈网络，也是一种轻量方案。

**训练超参数建议：**
- 学习率：全参1e-5~5e-6；LoRA 1e-4~3e-4
- 批次大小：尽量累积到有效批次64以上，利用梯度累积
- 优化器：带权重衰减的AdamW，配合余弦退火调度
- 掩码策略：严格保证loss仅来自最新助理回复

### 5. 实战代码示例（基于Transformers + PEFT）
以下演示如何加载数据、设置LoRA并训练一个多轮对话模型。

```python
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model, TaskType
import torch

# 1. 加载基座模型与分词器
model_name = "Qwen/Qwen2-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# 确保pad_token正确
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# 2. 定义数据预处理函数（组合对话并生成labels mask）
def format_multiturn(example):
    # 假设数据包含'messages'列表
    messages = example['messages']
    # 使用对话模板拼接
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
    # Tokenize
    tokenized = tokenizer(text, truncation=True, max_length=4096)
    # 生成labels：需要对用户和旧assistant部分mask
    # apply_chat_template后，可通过寻找assistant起始位置实现
    # 简便方法：复制input_ids，再将非最后一个助理回复的token位置置为-100
    input_ids = tokenized["input_ids"]
    labels = input_ids.copy()
    # 一个简化的mask方案：只保留最后一个assistant部分，实际开发中请严格按角色定位
    # 此处仅作概念展示，生产环境请使用成熟的mask逻辑
    # ...
    return {"input_ids": input_ids, "labels": labels}

# 3. 构建数据集（这里假设已有jsonl文件）
dataset = Dataset.from_json("multi_turn_data.jsonl")
dataset = dataset.map(format_multiturn)

# 4. LoRA配置
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=64,
    lora_alpha=128,
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"]  # 按照模型模块名调整
)
model = get_peft_model(model, lora_config)

# 5. 训练参数
training_args = TrainingArguments(
    output_dir="./multi-turn-lora",
    per_device_train_batch_size=2,
    gradient_accumulation_steps=16,
    learning_rate=2e-4,
    warmup_ratio=0.03,
    num_train_epochs=3,
    logging_steps=10,
    save_strategy="steps",
    save_steps=200,
    bf16=True,
    gradient_checkpointing=True,
    remove_unused_columns=False
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()