AlphaGo,第一个计算机程序打败围棋世界冠军,最近发现自己输掉了几十场比赛。
谁是该项目的新挑战者?一个更强大的版本。
据AlphaGo旗下的计算机程序开发公司DeepMind称,这个经过改进的新AlphaGo实际上可以在没有任何人类反馈的情况下自己学习下棋。
周三,DeepMind在一份新的报告中详细介绍了AlphaGo的最新演变,并将其称为Zero研究论文(在新窗口中打开)发表于《自然》杂志。
Zero与旧版本的AlphaGo的区别在于它的学习方式。之前的迭代是通过与人类玩家(包括业余玩家和职业玩家)竞争来实现的。
零是不同的。DeepMind在一份报告中写道,这个版本通过与自己对弈来学习博客(在新窗口中打开)。
为了实现这一目标,该公司使用了一种名为“强化学习”的机器学习技术来推动《Zero》优化游戏玩法。然后对程序的算法进行微调,以预测未来的移动和每场比赛的最终赢家。
该公司表示:“这项技术比以前版本的AlphaGo更强大,因为它不再受人类知识的限制。”
这一改变帮助Zero成为了比之前更强大的围棋选手。
经过三天的自我训练,新版本的AlphaGo与早期的AlphaGo程序进行了对决打败了去年18次世界冠军得主李世石。Zero表现非常出色,赢得了所有100场比赛。
DeepMind表示:“该系统从零开始逐步学会了围棋,在短短几天内积累了人类数千年的知识。”
经过40天的自我训练,Zero与今年早些时候击败了现任世界冠军柯洁的AlphaGo程序进行了对决。在100场比赛中,它赢了89场。
这项研究如何应用于古代棋盘游戏之外的其他领域尚不清楚。但根据DeepMind的说法,新版本的AlphaGo表明,人工智能程序并不总是必须依赖人类创造的数据才能变得聪明。