泓泰

DotA2团战人类也打不过【guò】AI了【le】?最全【quán】解读带你看懂【dǒng】AI修炼手法和【hé】局【jú】限

admin
DotA2团战人类也打不过AI了?最全解读带你看懂AI修炼手法和局限-第1张-游戏相关-泓泰

前言:

而今看官们对“dotaai原理【lǐ】”大体【tǐ】比较关心,你们都需要剖析一些“dotaai原【yuán】理”的相关【guān】资【zī】讯。那【nà】么小编同时在网摘上汇集了一【yī】些【xiē】关于“dotaai原理””的相关资讯【xùn】,希望【wàng】你们能喜欢,大家【jiā】一起来【lái】学【xué】习一下吧!

夏乙 问耕 发自 凹非寺

量子位 出品 | 公众号 QbitAI

GG。

随着人类喊出这两个字母,一切都结束了。

OpenAI研【yán】发的人【rén】工智能战队,首次在5v5的【de】Dota2开【kāi】黑团战对【duì】战中,击败人【rén】类玩家战队【duì】。

这真是一个里程碑式的事件。

这个能打团战【zhàn】的【de】AI名叫OpenAI Five,是OpenAI最新的研【yán】发成果。

OpenAI Five完【wán】全【quán】通过自我对战【zhàn】来学【xué】习打Dota2,每天的对战量据【jù】说相当【dāng】于人类的180年【nián】。而且惊【jīng】人的硬件消耗量,应该【gāi】也是创下纪录:256块GPU和12.8万【wàn】个【gè】CPU……

人【rén】类【lèi】就这么【me】又一次【cì】全面陷落了么?显然,Dota2团战AI击败人类【lèi】这件事【shì】,一点也不简单。

我们分三个部分,带来最全解析。

第一部分:OpenAI Five有【yǒu】多强?第二【èr】部分:现【xiàn】在去TI打专业战队有戏吗?第三部分:AI一【yī】日,人【rén】间180年【nián】

开始。

Dota2团战AI有多强?

可能真的出乎你的预料。我们来详细讲解一下。

团战不虚

团【tuán】战,需要综合使用技能、装【zhuāng】备和走【zǒu】位,最大化对敌方【fāng】英雄的【de】伤害,同时避【bì】免损失【shī】本方英【yīng】雄。

来看实战。

这是【shì】一波AI守高地【dì】的战【zhàn】斗。当时人【rén】类团【tuán】队的装备和等级【jí】都要更高。而【ér】且五【wǔ】位人类玩家全部集结在一路,准备【bèi】强行拆塔。

双方甫一【yī】接触时,AI只【zhī】有【yǒu】一位23级的英雄【xióng】应战,人类团队24级的【de】巫妖(Lich)首先【xiān】发难【nán】,使【shǐ】出“阿托斯之棍【gùn】”,将AI一方23级【jí】的巫妖定在原【yuán】地。

随后,AI巫【wū】妖【yāo】对自己释放【fàng】“EUL的神圣法杖”,这个技能可以让自己被卷入龙卷【juàn】风中【zhōng】,并且暂时处于无敌【dí】状【zhuàng】态。通过这一招【zhāo】,AI的用【yòng】意是拖住人类团【tuán】队,并且给自己的队友赶【gǎn】来赢得时间【jiān】。

随后,AI巫妖继【jì】续将人【rén】类团队拖【tuō】上高地,诱使人类玩【wán】家信【xìn】心【xīn】爆棚。而其【qí】他AI英雄【xióng】则开始从后方包抄人类团队。

绕后的AI冰女(Crystal Maiden),对人类团队拖后【hòu】的火枪(Sniper)率先【xiān】使出“闪【shǎn】烁匕【bǐ】首”,紧接着用【yòng】出【chū】“冰封【fēng】禁制”把狙击手【shǒu】冻住【zhù】,接着再是一记“黑皇杖”,最后施法“极寒领域”召唤【huàn】冰晶展开轰炸。

AI冰女释放的“极寒领域”,和AI毒龙(Viper)释放的【de】“幽冥剧毒”,迫使【shǐ】人类团队只【zhī】能散开。于是,AI火枪【qiāng】可以从安【ān】全距【jù】离上展开【kāi】远程【chéng】攻击【jī】。

在高伤害和群控的【de】攻【gōng】击【jī】下,人类火枪和冰【bīng】女想要【yào】撤退,却只能【néng】以被【bèi】击杀【shā】而告终【zhōng】。随后,在没有视野【yě】的情况下,AI冰女使用“冰霜新星”,击杀了人【rén】类巫【wū】妖。

随后,AI冰女还不肯罢休【xiū】,闪现追击人类【lèi】仅剩【shèng】的【de】最【zuì】后一【yī】个英雄死灵法师【shī】(Necrophos),然而【ér】在冻住对方后,AI冰女已【yǐ】经无技能【néng】可用,只得放弃追击。

最终这波团战,AI打了人类玩家一个2换4,而且守家成功。

诡计多端

遇到打不过的【de】时候,人类英雄躲进【jìn】树林想要避一避,没用的【de】。AI英【yīng】雄即便失去【qù】了视野,也【yě】会【huì】一路追进森林寻找,然【rán】后击杀【shā】。

眼见AI残【cán】血,人类玩家【jiā】想【xiǎng】要【yào】追击,千【qiān】万小心,因为其他AI英【yīng】雄正赶来【lái】捉人。人类玩家不【bú】单收不【bú】了人头,而且还要送【sòng】命。

特别强调一点,AI还学会了“擒贼先擒【qín】王【wáng】”,不惜使【shǐ】用多重【chóng】大招,只【zhī】为确【què】保能击杀【shā】等级最高的那个敌方【fāng】英雄。

而【ér】且【qiě】AI英雄还会自【zì】我【wǒ】牺牲,把【bǎ】人类玩家引诱出高地,确保团队其他成员【yuán】能推塔成功。

总之,OpenAI Five又能团,又能gank,足【zú】智多谋,诡【guǐ】计多【duō】端【duān】。

实【shí】际上,按照官【guān】方的说法【fǎ】,目【mù】前OpenAI Five在选【xuǎn】择攻击目标这一项上,达到了专业水平,但补【bǔ】兵能力还【hái】有不足。

去TI打专业选手有戏吗?

回答这个问题【tí】之前,先得明【míng】确一个事【shì】实:目【mù】前OpenAI Five战胜的【de】对手【shǒu】,并不是人【rén】类顶尖高手。

双【shuāng】方的【de】对战,大【dà】约两个【gè】月前【qián】已经开始。目【mù】前OpenAI Five已经先后与五支人类团队【duì】有过交手:

1、最强OpenAI员工队:MMR匹配分 2500

2、最强观众队:MMR 4000-6000

3、Valve员工队:MMR 2500-4000

4、业余队:MMR 4200,有团队训练

5、半职业队:MMR 5500,有团队训练

9-21,OpenAI Five首【shǒu】次击【jī】败了脚本基线【xiàn】版本。9-21,与第1队打【dǎ】成1:1。9-21,与第1、2、3队【duì】的对战中,均取得胜利。

可以看到OpenAI Five一直在进步【bù】。这个【gè】AI与第【dì】4、第5队进行了非正【zhèng】式的比赛,虽然没能取胜,但【dàn】是在前三场中【zhōng】赢下两场。

与人类玩【wán】家相比,OpenAI Five平【píng】均每分钟可【kě】进行150-170次操作,平均【jun1】反应【yīng】时【shí】间为80毫秒【miǎo】,明显比人类更【gèng】快。

不过这些不是决定5v5胜利与否的关键因素。

OpenAI还总结了OpenAI Five的几个特点:

屡次牺牲自己的优势路(夜魇军团的上路,天辉【huī】军团的下路),以压制敌人的【de】优势【shì】路【lù】,迫【pò】使战【zhàn】斗转移到对【duì】手更难防御的【de】一边【biān】。比赛初期【qī】到【dào】中期的转换比对手更快【kuài】。方法:(1) 多次成功gank人【rén】类玩家【jiā】 (2) 赶【gǎn】在对手集结之前,组队推塔【tǎ】。也有一些非主流【liú】打【dǎ】法【fǎ】。例如前期把钱【qián】和经验让【ràng】给辅助英雄。OpenAI Five的【de】优先级使其伤害值能更快攀升,进而【ér】赢【yíng】得团战等。

不过,这么厉害的队伍,当然也不是陪业余人类玩玩就算了的。

OpenAI说,他们打算8月【yuè】份【fèn】去DotA 2顶级赛事TI上,找一【yī】支顶级专业队伍【wǔ】PK一下,7月【yuè】底还要搞【gǎo】一【yī】场对战专业团队的直播【bō】。

当【dāng】然,全部【bù】英雄OpenAI Five暂时【shí】还搞不定,和专业选手【shǒu】对【duì】局,双方也只能在【zài】有限的英雄里选【xuǎn】。

到【dào】时候【hòu】这个“有限的英雄”究竟有多少,现在还不知道,不过,这也说【shuō】明了一个很重要的问题:现在OpenAI Five的能力【lì】,还【hái】不足以【yǐ】玩人【rén】类【lèi】版的DotA 2。

那么,AI现在玩的DotA 2和人类版相比做了哪些简化呢?

OpenAI在博客最后列出了AI版DotA的限制:

双【shuāng】方【fāng】英雄阵容是固定的【de】:死灵法师、火枪、毒龙、冰女、巫妖(他们【men】的【de】学名叫瘟【wēn】疫法师、矮人狙【jū】击【jī】手、冥界亚龙、水晶室女、巫妖);不插眼;没有肉山【shān】;没有隐身装备【bèi】;没有召唤单位、没有幻【huàn】像;少了一【yī】些【xiē】物品【pǐn】:圣剑、瓶子【zǐ】、补刀斧、飞鞋、经【jīng】验书、凝魂【hún】之泪;有5个无敌信使(鸡),但是不能用来侦查或【huò】者防御;没【méi】有扫描。

这意味着什么?

有了【le】这些限制,AI打的DotA就比人【rén】类【lèi】版有了很多【duō】简化【huà】,也【yě】说明了这个AI还【hái】有些没掌握的技能。

比如英雄【xióng】的选择和阵容【róng】的搭配。双【shuāng】方只【zhī】有固定的5个英雄,就【jiù】不需要掌握英雄之间【jiān】的配合和克制【zhì】情【qíng】况,游戏也【yě】少了很多变【biàn】化。

AI现在【zài】也还【hái】不懂得对视野的控【kòng】制。AI玩的版本没【méi】有隐身装备、没有插眼的【de】操作【zuò】、没有【yǒu】扫描,于【yú】是双方只能在游【yóu】戏原【yuán】本设定的视野中对战,不能靠【kào】自【zì】己的能力改【gǎi】变【biàn】视野,也不需要侦【zhēn】查。

游【yóu】戏中,如果【guǒ】不考虑信使,AI控制的单位【wèi】也只能【néng】是5个,这也就是【shì】为什么不能出现召唤单【dān】位和幻象。

另外,没有游戏野区最强【qiáng】大【dà】的【de】怪【guài】物【wù】肉山,也就没有了【le】打肉山能得到【dào】的复活盾。在职业比赛中,复活盾带来的原地满状态【tài】复活能力,可以说是个【gè】翻盘利器【qì】。

让人类职【zhí】业选手来打一个这【zhè】样的DotA,并没有【yǒu】什么优势;如【rú】果让现在的OpenAI Five去打人类版DotA,这【zhè】支没学过选英【yīng】雄、做视野【yě】、偷鸡【jī】等等技能,还少学了很多装【zhuāng】备的队伍,也会不知【zhī】所措【cuò】。

不过,OpenAI也说了,这些限制【zhì】大都是因为游戏里有【yǒu】些部分【fèn】还没整合【hé】进来,像插眼、肉【ròu】山【shān】这【zhè】种【zhǒng】职业比赛中【zhōng】的关键【jiàn】元素,他们【men】会尽快加上。

AI一日,人间180年

虽然还有种种限制,但不可否认,AI的进步还是快得吓人。

OpenAI的解释是【shì】,这个AI通【tōng】过自我对战【zhàn】来提升,从随机参数开始【shǐ】,不用人【rén】类玩家的【de】方法引导【dǎo】,也不人类玩【wán】家方【fāng】法中搜【sōu】索。

他们还【hái】特别提【tí】到,在训练1v1模型的时候,是专门针对卡兵这个操【cāo】作设置【zhì】了奖励【lì】的。但是在OpenAI Five模型中【zhōng】并没【méi】有这个【gè】奖励【lì】,但这个新模【mó】型还是自己【jǐ】学【xué】会了卡兵。

AI每天的训练量,相当【dāng】于打180年【nián】游戏。可谓真·勤【qín】学苦练,人类【lèi】选【xuǎn】手一辈子的训练量也不【bú】及它半【bàn】天。

这些每天训练180年的选手,究竟是些什么怪物?

他们的长相是这样的:

不要【yào】被【bèi】结构图吓到,简【jiǎn】单来说,每个选手,也就是每个智【zhì】能【néng】体(agent),都是一个单【dān】层LSTM(长【zhǎng】短时记忆网络),有1024个单元,能够通过【guò】Valve的【de】Bot API观察【chá】当【dāng】前【qián】游戏状【zhuàng】态,控【kòng】制自己的英雄接下来【lái】选择哪一种操作、释放【fàng】到XY坐标系中的【de】哪一点。

智能【néng】体能够观察到【dào】的信息和人类差不多【duō】,包括自身、队友和【hé】敌人【rén】的状况,比如位置【zhì】、血量【liàng】、攻击力、护甲、携带物品、能力等等。可【kě】能【néng】会有一【yī】点点【diǎn】区别的,就是智能体对【duì】过去【qù】12帧的【de】血量、攻击【jī】和被攻击情况等历史信息大概【gài】记得比人类清楚。

这些【xiē】信息,对于智【zhì】能体【tǐ】来【lái】说是一个包含20000数【shù】值的列表,而它判断之后发出的行【háng】动指【zhǐ】令,是8个值的列【liè】表。

选【xuǎn】手们的训练,使用的是扩【kuò】展版的近端【duān】策略优化(PPO)方法,这也是OpenAI现在默认的【de】强化学习训练方法。这些智【zhì】能【néng】体的目标是最【zuì】大化【huà】未来奖励的指【zhǐ】数衰【shuāi】减【jiǎn】和。

AI选手们在训练中饭量惊【jīng】人,承载【zǎi】它【tā】们需【xū】要256块P100 GPU和12.8万【wàn】个CPU核心【xīn】。

上【shàng】面的5v5版本与1v1版本【běn】对比,有一个令【lìng】人欣慰的结果【guǒ】:OpenAI Five需要的CPU和GPU计算力,与【yǔ】去年击败Dendi的1v1版相比,并没有【yǒu】翻到【dào】5倍。

5个智【zhì】能体训练出来,它们之间又【yòu】是怎样配【pèi】合的呢?总不【bú】能像我们人类【lèi】开黑一样互相喊【hǎn】话吧?

答【dá】案是,他们【men】之间没有【yǒu】那种人类可以理解的沟通【tōng】渠道,而是由【yóu】一【yī】个“团队精神”超参数来统一控制【zhì】。这个超参【cān】数的范围在【zài】0到1之间,决定了选【xuǎn】手对【duì】与【yǔ】自身奖励函数和队友平【píng】均【jun1】奖【jiǎng】励函数的关注【zhù】程度分配。

留给AI的时间还很多

OpenAI说,他们打算在【zài】9-21和顶级选手对战一番,留给他们的时间,还有整整1个【gè】月。8月,他【tā】们还要和顶级人类【lèi】专业【yè】选手在TI上【shàng】较量【liàng】,如果这一【yī】场【chǎng】较量【liàng】在AI结束【shù】时的话,留给AI的【de】时间【jiān】还有两【liǎng】个月。

按【àn】照“人间一【yī】天,AI界180年【nián】的”算法,加上肉山、插眼【yǎn】等关【guān】键元素之后,只要能给AI留【liú】半个【gè】月时间和自【zì】己【jǐ】对战,在【zài】它的【de】世界里就【jiù】可以说修炼了“数千年【nián】”。

这场对战,还开设了直播,等着和人类观众相见。

传送门

9-21大战的直播:

https://www.twitch.tv/openai

OpenAI博客详解【jiě】(包【bāo】含各种场景【jǐng】下AI观察到的情形和可采【cǎi】取行动的交互图解):

https://blog.openai.com/openai-five/

LSTM架构大图:

https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

PPO:

https://arxiv.org/abs/1707.06347

— 完 —

实习生招聘

量子位正在招募市场【chǎng】运营实习生,策【cè】划【huá】执行AI明星【xīng】公【gōng】司CEO、高管等参【cān】与的线上/线下活动,有机会与AI行业【yè】大牛直接交流【liú】。一【yī】份丰【fēng】富的【de】实习经历等你解锁~

工作地点【diǎn】在【zài】北京中关村。简【jiǎn】历欢迎投递到【dào】quxin@qbitai.com

具体细节,请在量【liàng】子位公众号(QbitAI)对【duì】话界面【miàn】,回复“实【shí】习生”三个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

标签: #dotaai原理