AlphaGo/AlphaZero 原理:深度强化学习的里程碑
FreeGuideOnline
最新
2026-06-25
a_t = argmax_a ( Q(s,a) + c_puct * P(s,a) * sqrt(N(s)) / (1 + N(s,a)) ) ``` 其中 ( Q ) 是平均动作价值,( P ) 是策略网络的先验概率,( N ) 是访问次数,( c_{puct} ) 控制探索强度。
-
扩展(Expansion):当搜索达到一个叶节点且该节点被充分访问时,调用策略网络为当前局面生成所有合法动作的先验概率 ( P(s,a) ),并初始化各子节点的统计量。
-
评估(Evaluation):早期AlphaGo使用价值网络直接估计叶节点的胜率 ( v );AlphaGo Zero则更简洁,用同一网络同时输出 ( (p, v) ),直接用 ( v ) 作为对局结果估计,无需模拟至终局。
-
回溯(Backup):将评估值 ( v ) 沿访问路径反向传播,更新所有祖先节点的 ( Q ) 值和访问计数:
N(s,a) += 1 Q(s,a) = (Q(s,a) * (N(s,a)-1) + v) / N(s,a)