Meta的研究人员创造了一种人工智能能够玩外交游戏并击败大多数人类玩家。
随着Meta AI博客解释(在新窗口中打开)几十年来,《Diplomacy》一直被视为“AI领域近乎不可能的大挑战”,因为玩这款游戏需要的技能。的外交目标(在新窗口中打开)就是控制棋盘的大部分,但这是通过玩家之间的对话、结盟、达成协议以及发现其他玩家的虚张声势来实现的。
Meta接受了挑战,创造并训练了一个名为西塞罗(在新窗口中打开),在玩过不止一款游戏的《Diplomacy》玩家中排名前10%webDiplomacy.net(在新窗口中打开)).这是通过结合人工智能研究的两个不同领域:战略推理和自然语言处理来实现的。
人工智能是由一个可控的对话模型和一个战略推理引擎共同工作形成的。这使得CICERO可以预测其他玩家可能采取的行动,也可以预测那些玩家认为CICERO将采取的行动(战略推理)。然后,CICERO使用一套精心挑选的计划来与其他玩家进行对话,这样它就可以“协商、提供建议、分享信息和达成协议”(自然语言处理)。
AI能够在游戏中击败最好的玩家,例如国际象棋扑克和围棋都是通过自我强化学习进行训练的。因为《Diplomacy》要求玩家与人类玩家合作,所以这种方法并不管用。通常情况下,监督学习被用于这类游戏,但Meta表示这会创造一个“相对较弱且极易被利用”的对手。相反,Meta使用了一种迭代规划算法来“平衡对话的一致性和合理性”。
CICERO远非完美,可能会产生不一致的对话,但它足以给游戏中最好的玩家提供一个严肃的挑战。然而,Meta认为,通过创造这种人工智能而开发的技术可以在其他地方得到很好的应用。例如,允许语音助手与我们进行长时间的对话并教我们新技能。然后,这种AI有可能被用于电子游戏中,充当难以与人类玩家区分开来的逼真角色。