AI 游戏 NPC：有限状态机到行为树与大模型驱动

FreeGuideOnline 最新 2026-06-25

python class GuardNPC: def init(self): self.state = "patrol"

def update(self, player_distance, hp):
    if self.state == "patrol":
        self.patrol()
        if player_distance < 10:
            self.state = "chase"
    elif self.state == "chase":
        self.chase_player()
        if player_distance > 20:
            self.state = "patrol"
        elif hp < 20:
            self.state = "flee"
    elif self.state == "flee":
        self.flee()
        if hp > 50 and player_distance > 15:
            self.state = "patrol"


#### FSM 的优点与局限
- **优点**：逻辑清晰，易于调试，执行效率极高，非常适合行为简单、状态数量少的 NPC。
- **局限**：当行为变复杂时，状态和转移呈指数级增长，容易陷入“状态爆炸”；复用性差，稍有不同的 NPC 需要复制大量相似逻辑；无法优雅处理并发行为（例如边射击边寻找掩体）。

虽然 FSM 在今天更多作为底层基础存在，但它为复杂系统的诞生铺平了道路。

### 第二部分：行为树——模块化与可扩展的行业标准

#### 行为树是什么
行为树（Behavior Tree, BT）以树形结构组织行为，通过节点组合逻辑，从根节点开始逐层“执行”，最终由叶节点产生实际动作。它最初来源于机器人控制，后由《光环 2》大量使用而成为游戏行业标准。

行为树通过**节点复用**和**条件组合**，解决了 FSM 的灵活性痛点。

#### 行为树的节点类型
- **组合节点（Composite）**：控制子节点的执行顺序和方式。
  - **Sequence（序列）**：从左到右依次执行子节点，全部成功则成功，一个失败则立即失败（类似 AND 逻辑）。
  - **Selector（选择）**：从左到右依次尝试子节点，一个成功则成功，全部失败则失败（类似 OR 逻辑）。
  - **Parallel（并行）**：同时执行多个子节点，可配置成功/失败阈值。
- **装饰节点（Decorator）**：只有一个子节点，用于改变其返回结果或执行逻辑，例如重复执行（Repeater）、反转结果（Inverter）、限制时间（Timeout）等。
- **叶节点（Leaf）**：具体的行为或条件判断。
  - **Action（动作节点）**：执行实际行为，如“移动”、“播放动画”，可以返回成功、失败或运行中。
  - **Condition（条件节点）**：检查某条件是否成立，立即返回成功或失败。

#### 一个卫兵的行为树示例

根节点 [Selector 优先级从高到低] ├─ Sequence [遭遇危险] │ ├─ 条件：生命值 < 30% │ └─ 动作：逃离 ├─ Sequence [战斗] │ ├─ 条件：发现敌人 │ ├─ Selector [攻击策略] │ │ ├─ Sequence [远程攻击] │ │ │ ├─ 条件：弹药 > 0 │ │ │ └─ 动作：射击 │ │ └─ 动作：近战攻击 │ └─ 动作：寻找掩体（与攻击并行） └─ 动作：巡逻


#### 行为树 vs 有限状态机
| 维度 | 有限状态机 | 行为树 |
|------|------------|--------|
| 结构 | 扁平状态图，转移条件离散 | 树形结构，条件与动作组合 |
| 复用性 | 低，状态逻辑紧耦合 | 高，节点可任意拆装组合 |
| 可扩展性 | 复杂时易状态爆炸 | 可逐层添加分支而不影响整体 |
| 并发处理 | 需要显式设计子状态 | 通过并行节点原生支持 |
| 调试难度 | 简单行为易调试 | 树结构可视化工具非常成熟 |
| 运行效率 | 极高 | 略低于 FSM，但现代硬件下差异可忽略 |

到今天，主流商业引擎（如 Unreal 的行为树系统、Unity 的 Behavior Designer 插件）都提供了强大的可视化行为树工具，使设计师可以直接参与 NPC 逻辑搭建。

### 第三部分：大模型驱动——当 NPC 有了真正的“大脑”

#### 从脚本化到生成式 AI
传统 NPC 的所有对话与行为都由设计师预先编写，能应对的玩家交互十分有限。大语言模型（LLM）的出现打破了这一限制：NPC 可以理解自然语言输入，实时生成符合角色设定的回应与行为意图，展现出前所未有的临场感与可塑性。

#### 大模型 NPC 的工作原理
典型的“大模型驱动 NPC”架构通常包含以下几个层次：

1. **角色配置文件**：定义 NPC 的背景、性格、知识边界、说话风格等，作为系统指令（System Prompt）持续注入给模型。例如：
   > 你是一个名叫艾丽莎的中世纪草药师。你性格温和但有些健忘，绝不相信魔法。你永远不说出现代词汇，你不知道玩家来自另一个世界。

2. **感知与上下文构建**：游戏引擎实时捕获玩家输入的对话、动作（如挥剑、赠送物品），并结合 NPC 当前状态（生命值、位置）、世界状态（时间、天气）、记忆（之前的对话摘要）等，组装成一次性提示词。

3. **大模型推理与输出解析**：将上下文发送给 LLM（可以是本地小模型或云端 API），获取自然语言回复，同时可搭配函数调用（Function Calling）机制，让模型输出结构化的行为指令，如：
   ```json
   {
     "dialog": "我上次见到这种花还是在北方的灰雾森林，那是很久以前了……",
     "action": "pick_herb",
     "emotion": "nostalgic"
   }