您现在的位置是:网站首页> 内容页

人类在Dota2大赛上打赢OpenAI,但AI赢回来也只是时间问题

  • 沐鸣娱乐手机客户端
  • 2019-10-02
  • 491人已阅读
简介OpenAI曾在2017年战胜Dota2世界顶级玩家Dendi,本月初战胜了由职业选手和解说员组成的半职业战队,这一系列出彩的表现提升了人们对人工智能再次夺冠的期望。8月22日在温哥华

OpenAI曾在2017年战胜Dota2世界顶级玩家Dendi,本月初战胜了由职业选手和解说员组成的半职业战队,这一系列出彩的表现提升了人们对人工智能再次夺冠的期望。8月22日在温哥华举行的TI8上,OpenAI联合创始人兼CTO格雷格·布罗克曼(Greg Brockman)带着全新的OpenAI Five如期而至,却接连输给巴西站队和中国战队,据悉,巴西战队目前世界排名第14位,这至少说明一直想挑战人类「最强」的人工智能,目前还不能在Dota2电竞场上打败人类。

机器的短板

正如专注于游戏领域AI研究的迈克·库克在Twitter上所说,「机器人在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。」Open AI计划在当地时间周三、周四、周五连比三场,由于比赛采取三局两胜制,OpenAI在输给中国战队之后,就结束TI8之旅。

两场比赛分别持续了51分钟和45分钟,从数据来看,OpenAI Five在比赛开始的前20-35分钟内确实有很大的胜算。以AI的计算能力来看,OpenAI Five不乏出彩的表现,比如「围剿」孤立的英雄,近距离进行技能释放,血量计算等。在与巴西战队paiN的较量中,AI也拿到比对手更多的「人头」。毕竟,人工智能就是一台机器,可以获取游戏后端给予的精确的数字反馈,比如英雄状态和英雄间距离等信息。但是在战略上,人工智能远不及人类,执着于击打Roshan、莫名其妙的在家、塔下插眼、在没有对手的时候放大收野。

这种精准的计算和不稳定的战略恰好反映了AI是如何学会打Dota的,OpenAI使用强化学习训练AI从头自学,在一遍遍尝试中坚持下来有效的动作。因此也导致了OpenAI Five在面对训练中没有遇到的情况时束手无策,从事OpenAI Dota项目的软件工程师苏珊·张表示,「如果AI在比赛中遇见了之前从未有过的情况,很难立即调整。同时,在训练过程中,机器人在判断采取何种行动时,最多会提前14分钟。没有任何一种机制让机器人部署超过14分钟的长期战略。」所以,AI的这一缺陷,在两场比赛中展露无遗。

在比赛开始前,格雷格·布罗克曼曾对The Verge表示,公司曾进行一场内部员工投票,认为OpenAI Five获胜的可能性不到50%,这是普遍的共识。但是他补充说,真正重要的是AI的进步速度。AI在接近某战队水平时,就与他们打比赛,一、两周之后,AI就能超过他们,这样的事情已经「验证」很多次了。

不可否认的是AI强大的学习能力,即便完败巴西、中国战队,OpenAI的AI选手也远远超越早期的电子竞技机器人。

「OpenAI Five」

在体育和游戏中,人工智能与人类的对抗有着悠久的历史。IBM开发的深蓝计算机在1996年成为了第一个与世界象棋冠军较量并赢得比赛的电脑系统。战胜越来越具有挑战性的人类冠军则慢慢成为衡量人工智能进步的标准。

2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4:1的总比分胜出;之后,AlphaGo以网络围棋手「Master」的身份为与中日韩数十位围棋高手进行对决,以60胜零负收场。此后,DeepMind团队公布全新强化学习算法——AlphaZero,仅仅通过自我对弈的方式就达到超越人类的水平。

去年,谷歌旗下的DeepMind和马斯克创建的非盈利研究实验室OpenAI合作研究一种根据人类反馈进行强化学习的新方法,并发表论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度强化学习)。要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数,因为这都可能导致AI行为偏离轨道或引发危险。新算法只需要人类逐步告诉AI,两种AI推荐的动作中哪一种更好,AI由此推测人类的需求进行学习,比如新算法用来自人类评价员的900次二选一反馈学会了后空翻。OpenAI和DeepMind希望通过新算法来提高人工智能的安全性。

DeepMind凭借AlphaGo不负众望,同样专注在强化学习领域的OpenAI则是放眼于Dota2上,因为在数学计算上,电竞游戏比象棋或者围棋更复杂。这件看似「不正经」的事情,对于人工智能来说却是巨大的挑战,游戏中需要AI团队协同作战、布局长期战略、制定复杂决策。如果赋予AI的这些技能可以通过游戏磨练「精进」,便可以加以运用到现实生活中。这也恰巧符合OpenAI的建立初衷——吸取所有的人类优点,建立安全的通用机器人。

OpenAI曾在2017年1v1战胜Dota2世界顶级玩家Dendi,并于今年6月25日宣布能在5V5对战上打败顶级业余玩家。OpenAI开发了一套名为「OpenAI Five」的算法,把AI放进虚拟环境中,从自我对抗中学习,程序员设置奖励机制,让AI一遍一遍地训练自己,据悉OpenAI Five每天的训练量相当于玩180年的游戏。而从此前OpenAI Five战胜半职业战队的战绩来看,这套训练方法似乎取得了一定成效。

可是在面对顶级玩家时,OpenAI Five则没那么幸运,虽然格雷格表示,「周三晚上的比赛,证实了OpenAI Five已经很接近人类的电竞能力。」但是OpenAI的技术人员菲利普·沃尔斯基也承认了面对职业选手,OpenAI会稍显「底气不足」。他还说到,在准备整个项目时,团队经历了很多不眠之夜。就算回家休息的时候,也在担心是否上传了正确的参数。但是OpenAI的Dota之旅还远没有结束,「我们想要机器人在越来越少的限制下玩游戏。」

AI在这几场比赛中所缺失的也正凸显了目前机器学习的局限性,在看似「不起眼」的策略、规划制定上,人工智能貌似还差得很远。格雷格曾在8月初OpenAI Five战胜半职业战队之后发推祝贺,「已经准备好迎战TI8」,但是现在看来OpenAI在Dota2上要走的路还有很长。

文章评论

Top