|
近日,研究人工智能(AI)和游戏的科学家将迎来最新的人机对决。
但此次并非一个人与一台机器对决,一个由5名顶尖电子游戏玩家组成的团队,将会疯狂地向一群名为OpenAI 5的机器人施展魔法咒语和发射(虚拟)火球。
他们将在加拿大温哥华举行的国际电子竞技锦标赛上玩实时策略游戏Dota 2,这是一项一年一度的电子竞技赛事,其数百万美元的奖金吸引了许多职业玩家参与。
1997年,IBM的“深蓝AI”击败国际象棋冠军加里·卡斯帕罗夫。
2016年,深度思维公司的AlphaGo AI在传统围棋比赛中击败了世界围棋大师李世石。计算机在跳棋和一些扑克游戏中也击败了人类。
但快节奏的多人视频游戏则带来了另一种挑战,它需要计算机协作和管理不可预测性。
这一目标是常识,它可以帮助AI应对现实世界的情况,如导航交通和提供家庭护理,即使它们永远不必面对魔法咒语。
“AI的下一件大事是合作。”英国伦敦大学学院计算机学家、研究另一种实时战略游戏《星际争霸2》的王军(音译)说。
牛津大学计算机学家、《星际争霸2》的另一名研究者Jakob Foerster说,它需要“战略推理,在这里它可以了解其他人的动机”。
Dota 2于2013年公布,在全球拥有数百万玩家。
在游戏中,团队在保卫自己地盘的同时,还要通过战斗摧毁敌人的地盘,同时收集资源以增加自己的力量和技能。一场势均力敌的比赛持续时间约45分钟。
1年前,美国加州旧金山非营利研究机构OpenAI公布了一种能在一对一游戏中击败人类最佳玩家的AI。
但OpenAI的联合创始人兼首席技术官Greg Brockman表示,在此次国际比赛中,5对5的对决对电脑来说是一个更大的挑战,因为比赛的时间更长,也更复杂。
尽管如此,在近日热身赛中,OpenAI 5仍轻松击败了一个前职业玩家团队。
“被一个非人类弄得很尴尬是件糟糕的事。”在一群观众面前输掉比赛的William“Blitz”Lee说,“我们被左右碾压。”
Dota2中潜在的走法范围远远大于国际象棋或围棋,后两者最多只有几百种走法。
但在Dota2中,动作是不变的,玩家的每次移动却有着成千上万种选择,例如向哪里逃跑、用哪个魔法以及在哪里瞄准等。
这样的自由度加上游戏固有的随机性和玩家对视野之外事物的忽视,意味着你不能完美地预测游戏的走向,哪怕是向前移动一步。
在国际象棋和围棋中,算法会使用搜索树分析未来分支的可能性。而在Dota2中,预测变得更加模糊。
因此,OpenAI 5没有依赖于搜索树,而是使用了神经网络,这是一种受大脑启发的算法,可以加强小计算元素之间的联系从而予以回应。(AlphaGo则是将神经网络与搜索树相结合)
在训练过程中,该系统在游戏中盲目地实验不同的动作。当它们表现良好时,负责那些行为的联系就会加强。经过长时间的游戏加速,强大的策略出现了。
OpenAI大规模应用了这种被称为强化学习的方法,并在数千台计算机上同时运行该算法。
“OpenAI 5是我见过的令人印象最深刻的强化学习演示之一。”丹麦哥本哈根信息技术大学计算机科学家、参与《星际争霸2》研究的Niels Justesen说。
从表面上看,OpenAI 5在合作方面也取得了成功。
AI的5名玩家非常愿意为了团队的整体利益而牺牲自我,这可能会让它们比人类团队更有优势。
“这台机器人表现得很有牺牲精神。”Lee说,而人类不太可能为了获胜而放弃一个玩家。“贪婪是一种人性观念。”
但AI依赖于一种蜂群思维,它可能让协作变得更容易。
系统中几乎相同的5种算法中的每一种都能看到其他算法所看到的内容,而人类只能看到自己屏幕上的内容,只有通过交谈才能共享信息。
王军表示,为了与人或与它们不同的程序合作,无论是在游戏还是在生活中,这些算法最终需要发展沟通技巧和“心理理论”,即有关其他人和算法的信念和愿望的模型。
即便如此,Dota2仍然是对AI的一个有价值的测试。许多专家预测OpenAI 5将在国际比赛中获胜。
不过,德国多特蒙德技术大学研究人工智能和游戏的Vanessa Volz则看到了其潜在的弱点,那就是OpenAI 5使用“自我对决”来训练算法。
她表示:“这种方式有可能会受到以前看不到的游戏风格的影响。”
输给人工智能的Lee也有同样的感觉。
“现在,机器人有点太死板了。”他说,“它的可预测性变得有些过强。我觉得如果我们再多打几场比赛,就能干净利落地获胜。”
来源:科技报 |
|