AlphaGo是如何分析棋步的?分两个阶段！-无名网

除了深度学习，AlphaGo还采用了能够减少下一手预判量的算法。这正是羽生先生在前文中所说的“策略网络”。

哈萨比斯先生——同时也是一位国际象棋选手——将这种“筛选”的算法编入了AlphaGo，而且还将其分为两个阶段。第一个阶段是筛选出下一步的范围（value network，价值网络）；第二个阶段是根据不同的局势，判断应该预读到接下来的第几步（策略网络），以此来控制计算的深度，从最少的必要深度中，选出现阶段的最佳下法。

AlphaGo是如何分析棋步的?分两个阶段！

不过对于计算机专家来说，这种算法本身并不是一个很难的东西。使用蒙特—卡罗法的模拟实验和数值计算，就可以算出随着局面增加的各个下法（二叉探索树）的胜率。蒙特—卡罗法早就出现在一些编程入门的，为人们所熟知。在胜率超过某个特定的数值之前，程序会不断地计算，而当胜率超过这个数值的时候，计算就会停止。人们就可以大致确定，“试试这样做，应该会很顺利”。

这种办法听起来仿佛很随意，但是如果能够像这样排除那些无谓的战略，电脑就可以对有价值的战略进行彻底的深度思考。因此从某种意义上，可以说现在的人工智能的智慧已经从本质上逼近专业棋手的智慧了。而羽生先生早就对人工智能持有这种观点，他的分析能力可见一斑。

AlphaGo是如何分析棋步的?分两个阶段！

【相关阅读】

最新文章

推荐文章