AlphaGo/AlphaZero 原理:深度强化学习的里程碑

FreeGuideOnline 最新 2026-06-25

a_t = argmax_a ( Q(s,a) + c_puct * P(s,a) * sqrt(N(s)) / (1 + N(s,a)) ) ``` 其中 ( Q ) 是平均动作价值,( P ) 是策略网络的先验概率,( N ) 是访问次数,( c_{puct} ) 控制探索强度。

  1. 扩展(Expansion):当搜索达到一个叶节点且该节点被充分访问时,调用策略网络为当前局面生成所有合法动作的先验概率 ( P(s,a) ),并初始化各子节点的统计量。

  2. 评估(Evaluation):早期AlphaGo使用价值网络直接估计叶节点的胜率 ( v );AlphaGo Zero则更简洁,用同一网络同时输出 ( (p, v) ),直接用 ( v ) 作为对局结果估计,无需模拟至终局。

  3. 回溯(Backup):将评估值 ( v ) 沿访问路径反向传播,更新所有祖先节点的 ( Q ) 值和访问计数:

    N(s,a) += 1
    Q(s,a) = (Q(s,a) * (N(s,a)-1) + v) / N(s,a)