AlphaGo是如何分析棋步的?分两个阶段!

时间:2024-12-03 09:44:07

除了深度学习,AlphaGo还采用了能够减少下一手预判量的算法。这正是羽生先生在前文中所说的“策略网络”。

哈萨比斯先生——同时也是一位国际象棋选手——将这种“筛选”的算法编入了AlphaGo,而且还将其分为两个阶段。第一个阶段是筛选出下一步的范围(value network,价值网络);第二个阶段是根据不同的局势,判断应该预读到接下来的第几步(策略网络),以此来控制计算的深度,从最少的必要深度中,选出现阶段的最佳下法。

AlphaGo是如何分析棋步的?分两个阶段!

不过对于计算机专家来说,这种算法本身并不是一个很难的东西。使用蒙特—卡罗法的模拟实验和数值计算,就可以算出随着局面增加的各个下法(二叉探索树)的胜率。蒙特—卡罗法早就出现在一些编程入门的,为人们所熟知。在胜率超过某个特定的数值之前,程序会不断地计算,而当胜率超过这个数值的时候,计算就会停止。人们就可以大致确定,“试试这样做,应该会很顺利”。

这种办法听起来仿佛很随意,但是如果能够像这样排除那些无谓的战略,电脑就可以对有价值的战略进行彻底的深度思考。因此从某种意义上,可以说现在的人工智能的智慧已经从本质上逼近专业棋手的智慧了。而羽生先生早就对人工智能持有这种观点,他的分析能力可见一斑。