首页 » 国内科研 >

Google AI在策略游戏《星际争霸2》中击败人类顶尖玩家

2020-02-12 13:04:11来源:

今年夏天,科幻视频游戏《星际争霸2》的玩家面对一个不寻常的对手。由Google AI公司DeepMind制造的名为AlphaStar的人工智能(AI)在欧洲游戏服务器上发布后获得了大师级评价,在该地区90,000名玩家中排名前0.15%。

该结果于10月30日在Nature1上发表,表明AI可以在StarCraft II的最高水平上竞争。StarCraftII是一款广受欢迎的在线策略游戏,其中玩家可以实时作为人类三族或人类三大派系之一进行实时竞争。外星人Protoss和Zerg在一个未来派的战区中相互对抗。

DeepMind以前建立了下象棋和围棋的世界领先AI,后来将StarCraft II作为下一个基准,以寻求通用AI(一种能够学习或理解人类能够完成的任务的机器)的游戏策略复杂性和快速的步伐。

俄勒冈州立大学(Corvallis)的AI研究人员乔恩·道奇(Jon Dodge)说:“泪水没有想到AI会在这一领域如此快地成为超人类,也许再过几年也不会。”

自学式AI在策略游戏Go中尚属最佳

在《星际争霸II》中,经验丰富的玩家可以通过管理资源,执行复杂的战斗动作并最终超越对手的战略来承担多项任务。专业人士以惊人的速度玩游戏,每分钟进行300多个动作。DeepMind AI的基础机器学习技术依赖于人工神经网络,该网络学习从大型数据集中识别模式,而不是获得特定的指令。

DeepMind于2018年12月首次在一系列基于实验室的测试游戏中与AlphaStar对抗高级玩家。AI扮演和击败了两个专业的人类玩家。但是批评家断言,这些示范比赛并不是一场公平的战斗,因为AlphaStar具有超人的速度和精准度。

在团队让AlphaStar离开实验室并进入欧洲StarCraft II服务器之前,他们限制了AI的反应,使其更加公平。7月,玩家收到通知,他们可以选择加入有机会与AI进行比赛的机会。为了使试验不致盲目,DeepMind掩盖了AlphaStar的身份。

AlphaStar项目的共同负责人戴维·西尔弗(David Silver)说:“我们希望这就像盲目的实验一样。”“我真的很想在那种条件下玩耍,并真的有一种感觉,”这群人对我们的表现有多好?

AlphaStar的训练取得了回报:它压低了低排名的对手,并最终在对抗高排名的球员的90场比赛中赢得了61场胜利。

具有挑战性的复杂性

《星际争霸II》的复杂性给AI带来了巨大挑战。与国际象棋不同,《星际争霸2》有数百个“片”“派系”中的士兵,它们实时地同时移动,而不是以有序的,基于回合的方式移动。棋子的合法动作数量有限,而AlphaStar随时有1026种动作可供选择。与《国际象棋》不同,《星际争霸2》是一种信息不完善的游戏,玩家常常看不到对手在做什么。这使其不可预测。

近十年来,研究人员在一场年度竞赛中将玩星际争霸和玩星际争霸II的AI相互抗衡。但是,与AlphaStar不同,大多数“机器人”都依赖于硬编码规则,而不是可以自我训练的神经网络。现在共同领导AlphaStar项目的Oriol Vinyals在加州大学伯克利分校的团队中工作,该团队在2010年赢得了第一场比赛。

Vinyals说:“然后,我有点开始思考也许我们应该只进行机器学习,但这还为时过早。”

在“自然播客”上收听有关此研究的更多信息。

下载MP3

Vinyals在2016年加入DeepMind,在那里他开始从事AI的研究,这些AI可以教自己如何玩《星际争霸II》。AlphaStar通过学习模仿近一百万种人类游戏来开始培训。为了进一步改善AlphaStar的游戏性能,DeepMind建立了一个联盟,在该联盟中AI版本相互竞争。伦敦帝国学院的AI研究员Kai Arulkumaran说,这种方法对于像《星际争霸2》这样的游戏来说是没有道理的。

敏锐的玩家

DeepMind还对AlphaStar施加了约束,以确保AI真正做到了超越思维,而不是超越人类对手。因为游戏奖励了快速点击的能力,所以以超人速度点击的计算机可能会击败人类而不会变得更加聪明或无法做出更好的决策。因此DeepMind将AlphaStar反射的速度限制为有经验的人类玩家。

为什么深度学习AI如此容易被愚弄

在这种情况下,经过27天的培训,AlphaStar在欧洲服务器上排名前0.5%。

然而,经过50场比赛,DeepMind遇到了障碍。一些玩家注意到,Battle.net游戏平台上的三个用户帐户在相似的时间段内玩了完全相同数量的《星际争霸II》游戏-AlphaStar秘密使用了这三个帐户。在观看这些比赛的重播时,玩家注意到帐户所有者所执行的动作对于人类来说将是极其困难的,甚至是不可能的。作为响应,DeepMind开始使用多种技巧来保持审判的盲目性,并阻止玩家发现AlphaStar,例如定期更换帐户。

最终版本的AlphaStar依靠总共44天的培训,并且经常遇到专业玩家。AI不能像国际象棋和围棋那样击败世界上最好的玩家,但DeepMind认为其基准已经达到,并表示已经完成了《星际争霸II》的挑战。

其他AI科学家尚未确信AlphaStar可以取得完全胜利。加拿大纽芬兰纪念大学的AI研究员Dave Churchill认为,AlphaStar仍然存在许多弱点,例如以前从未见过的策略弱点。

他说:“ lphaStar令人印象深刻,并且绝对是迄今为止所有StarCraft游戏中最强大的AI系统。”“话说回来,《星际争霸》还远没有“解决”,而AlphaStar甚至还没有达到世界冠军水平。