围棋博弈程序的实现与思考（3）——UCT算法

coolsooner

浏览: 1309534 次

最近访客更多访客>>

lwvermds

神乎其技1412

枫叶灬

jacket233

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1948)

社区版块

存档分类

2012-02 ( 3)
2012-01 ( 250)
2011-12 ( 113)
更多存档...

我们已经知道UCB算法能够更快地找到靠谱的着手点，续上一篇的问，能不能再优化？

首先要知道的是，为什么UCB算法比盲目的蒙特卡罗局面评估收敛得更快？我的理解，是因为在算法执行的过程中，UCB算法能不断根据之前的结果调整策略，选择优先评估哪一个可下点。其实这是一种在线的机器学习策略。对于上一篇提到过的多臂匪徒问题，可以用UCB算法很好地解决。对于围棋博弈问题而言，UCB算法相比于朴素的蒙特卡罗局面评估方法，收敛速度有很大的提高，但确实存在可进一步优化的地方。

上一篇中，把围棋棋盘上的可下点比作了角子机，但他们之间有什么不同呢？

答案是——多臂匪徒问题只有一层角子机，围棋博弈问题则是多层角子机构成的博弈树！

终于提到博弈树了，需知在绝大多数棋类博弈问题中，博弈树是必不可少的工具。这里简单介绍一下博弈树搜索中用到的最基本搜索方法——最大最小搜索（如果对博弈树毫无概念，请自行google）。在一个二人零和博弈游戏中，参与博弈的双方所作出的每一个决策都是为了己方利益的最大化（废话～）。假设我们把黑方获胜时的棋局形势设为一个正数值v，白方获胜则是-v（其他情况下局势介于v和-v之间），则黑棋的每一手棋都是为了使局势尽可能的大，白棋反之。表现在博弈树中，则黑棋层总是选择局势值最大的结点作为结果返回上一层，白棋层反之——这就是最大最小搜索。

有了以上的科普，这里就给出上一篇的答案——更优化的算法，UCT算法（UCB for tree）。以下是算法描述：

给定一棵博弈树。

1) 从博弈树的根点开始向下搜索，执行2）。

2)遇到节点a后，若a存在从未评估过的子节点，执行3），否则执行4）。

3) 通过MonteCarlo方法评估该子节点，得到收益值后更新该子节点至根节点路径上所有节点的平均收益值，执行1）。

4) 计算每个子节点的UCB值，将UCB值最高的子节点作为节点a，执行2）。

5) 算法可随时终止，通常达到给定时间或尝试次数后终止。

根节点下平均收益值最高的子节点作为算法的输出。

对于这个算法，有几点需要解释：

1）博弈树的根节点指的是当前的局面。

2）评估过的节点及其平均收益值将在程序运行过程中保存及更新。

3）收益值可自行设定合适的值。我知道MOGO的做法是将其设为1（胜）或0（负），我的程序Foolish Go的做法是，所得地域 / 总地域。

4）这个算法是现代围棋博弈程序的基石。

个人对这个算法的理解是，本质上是一种迭代加深的DFS。

为了更好地理解UCT算法的收敛性，不妨思考，这个算法会怎样“意识”到下一手棋应该征子？

理论的东西差不多介绍完了，下一篇将进入实战。

分享到：

[30期] 第一个项目 | HDU 3374 KMP +字符串最小表示

2011-08-28 21:50
浏览 925
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论