原创造就12-09 05:28

摘要: 如果学习模仿人类,那最多也就只能模仿人类而已。在很多复杂的局面中,存在着人类永远发现不了的新见解。


掀翻世界围棋冠军后仅仅19个月,计算机程序AlphaGo跨越了一个更大的障碍:它现在能全凭自学达到前所未有的围棋水平。



取名AlphaGo Zero的新版程序刚开始对围棋策略一无所知,在不接受任何人为训练的情况下,只用了三天时间,就创造出几千年来人类围棋手从未想到的高明策略。这项突破让人工智能摆脱对人类知识的依赖,为智能机器的未来消除了一个主要限制。

 

早期版本的AlphaGo在人类的指导下,利用两种方法来学习围棋。


  • 一是监督学习,研究人员把10万场业余高手的对局输入程序,教它模仿人类的走法

  • 二是强化学习,他们让程序自己下棋,从结果中吸取经验教训



AlphaGo Zero跳过了第一步。该程序从白丁开始,只知道围棋的规则,自己跟自己对弈。


起初,它把棋子随机地放在棋盘上。随着时间的推移,它能更好地评估棋盘上的局势,发现有利的落子位置。它还学会了围棋策略中的很多诀窍,自己发明了新招数。


“如果你学习模仿人类,那最多也就只能模仿人类而已,”密歇根大学计算机科学家桑汀德·辛格(Satinder Singh)说,“在很多复杂的局面中,存在着你永远发现不了的新见解。”



经过三天的训练和490万场练习赛后,研究人员让AlphaGo Zero和曾经打败世界围棋冠军的旧版AlphaGo一决高下。


AlphaGo Zero取得了100:0的全胜战绩。


在行家眼中,这个结果令人震惊。围棋比国际象棋复杂得多,走法多不胜数,单纯的强化学习似乎无法掌握,你会认为AlphaGo Zero将永远摸不着头绪,盲目地寻找可行的策略。然而,它很快就培养出了人类无法企及的能力。



高效的学习过程归功于反馈回路。和其前身一样,AlphaGo Zero通过一个名为“树搜索”的过程来确定下一步棋的走法。该程序从当前的盘面入手,考虑可能的落子位置,接着考虑对手会怎么下,然后再考虑自己如何应对,以此类推,形成一个模拟不同落子组合、产生不同盘面的分支树图。

 

AlphaGo Zero无法穷尽搜索树的每个分支,因为这需要极为强大的计算能力。它通过确定哪些路径最有取胜希望,有选择地修剪枝丫。它根据以前学到的致胜走法和盘面,来计算应该修剪哪些枝丫。

 


早期版本的AlphaGo也是这么做,但AlphaGo Zero的新颖之处在于,它不是运行树搜索,然后走一步棋,而是记住树搜索的结果以及对弈的结果,然后利用这些信息,调整它对具有取胜希望的走法和不同落子位置的致胜可能性的判断。


因此,下一次运行树搜索的时候,它能利用改善后的判断(经由以前的树搜索结果加以训练),来进一步改善对最佳可能走法的判断。


AlphaGo Zero背后的计算策略很有效,特别是在拥有众多可能性、需要找到最优解的情况下。在描述AlphaGo Zero研究的论文中,作者们写到,他们的系统可用于材料研究(识别让材料具有不同属性的原子组合)和蛋白质折叠(了解蛋白质的三维结构如何决定其功能)。

 


至于围棋,AlphaGo Zero带来的影响可能是惊天动地的。迄今为止,游戏公司未能开发出世界级的围棋软件。AlphaGo Zero可能改变这一点。


美国围棋协会执行副总裁安德鲁·杰克逊(Andrew Jackson)认为,不久后围棋应用程序将面市。这将改变人类围棋手的训练方式,也将使作弊变得更容易。


对于AlphaGo来说,其未来是无限宽广的。围棋十分复杂,没人知道一个能够自学的计算机程序将达到怎样的高度。现在,AlphaGo有了能够匹配围棋之广博的学习方法。

 

翻译:于波

来源:Quanta Magazine