AlphaGo/AlphaZero 原理：深度强化学习的里程碑

FreeGuideOnline 最新 2026-06-25

a_t = argmax_a ( Q(s,a) + c_puct * P(s,a) * sqrt(N(s)) / (1 + N(s,a)) ) ``` 其中 ( Q ) 是平均动作价值，( P ) 是策略网络的先验概率，( N ) 是访问次数，( c_{puct} ) 控制探索强度。

扩展（Expansion）：当搜索达到一个叶节点且该节点被充分访问时，调用策略网络为当前局面生成所有合法动作的先验概率 ( P(s,a) )，并初始化各子节点的统计量。
评估（Evaluation）：早期AlphaGo使用价值网络直接估计叶节点的胜率 ( v )；AlphaGo Zero则更简洁，用同一网络同时输出 ( (p, v) )，直接用 ( v ) 作为对局结果估计，无需模拟至终局。
回溯（Backup）：将评估值 ( v ) 沿访问路径反向传播，更新所有祖先节点的 ( Q ) 值和访问计数：
```
N(s,a) += 1
Q(s,a) = (Q(s,a) * (N(s,a)-1) + v) / N(s,a)
```