泓泰

虽又【yòu】击败了人类选手,但我们认为【wéi】 OpenAI 的 5v5 DOTA AI 不过如此【cǐ】

admin
虽又击败了人类选手,但我们认为 OpenAI 的 5v5 DOTA AI 不过如此-第1张-游戏相关-泓泰

雷锋网 AI 科技评论按【àn】:各【gè】位【wèi】读者【zhě】想必【bì】今【jīn】天一睁眼就被「OpenAI 的【de】人工智能在 DOTA 5v5 比赛【sài】中也打【dǎ】败了人【rén】类选手」的新闻刷屏了【le】。OpenAI 开发的 DOTA AI 去年在 1v1 solo 中打败顶级职【zhí】业选【xuǎn】手 Dendi 和 Sumail之后,紧接着【zhe】就放出豪言【yán】还要在 5v5 的 DOTA 比【bǐ】赛中击败人类,这【zhè】一天仿佛这么快就到来【lái】了。

5v5 AI,一个新的台阶,不过这个 AI 其实还比较初级

DOTA(以及 DOTA2)是目前最【zuì】火热的电子竞技游【yóu】戏之一【yī】,也是当之无愧的职业【yè】比赛【sài】规【guī】模【mó】最大、奖金最高的游戏。DOTA 游戏有【yǒu】很【hěn】高的难度【dù】,对人类玩家【jiā】来说【shuō】都需要很长的学习时间,因【yīn】为【wéi】 DOTA 中有上百种英雄、上百种物品、多种游戏策略、不同【tóng】英雄有不【bú】同的玩法、不同的英雄组合【hé】之【zhī】间也【yě】有独特的技能和【hé】装备【bèi】配合;除此之外玩家还需要审时度势,同一个【gè】英雄【xióng】在不同【tóng】局面中也有不同【tóng】的玩【wán】法。DOTA 的职业比赛也【yě】因【yīn】此【cǐ】而变【biàn】得激动人心【xīn】,选【xuǎn】手的局部【bù】小操作和整个【gè】团队改变战局的战略执行都会被玩家们津【jīn】津乐道。

复杂的英雄、物【wù】品、配合【hé】、长短期策略结合等方面正【zhèng】是我们长期【qī】认为 DOTA 这样的游【yóu】戏对现阶【jiē】段的 AI 来说过于困难的原因【yīn】。而且除了这【zhè】些人【rén】类眼【yǎn】中【zhōng】的认知难【nán】题之外【wài】,DOTA 游【yóu】戏的行动空间还非常庞大。相【xiàng】比于【yú】围棋中每一【yī】步操作只需要在棋盘【pán】上剩余的空位【wèi】中选一个落子,DOTA 中的【de】行动是非常密集的(每【měi】分【fèn】钟【zhōng】操作在 100 次数量级)、考虑时间长短的【de】(比如持续施法技能)、数值连续的(比如走位)、复杂多值化的(比【bǐ】如【rú】购买装【zhuāng】备)、信息是部分可【kě】观察的(地图上有大量的无视野区【qū】域),反馈也可以【yǐ】认【rèn】为是稀疏的(胜负最为重要),所【suǒ】以主流【liú】观点一【yī】度认为类似 DeepMind 开发 AlphaGo 时那样的纯粹强化学习自我对弈是无法学会玩 DOTA (以及星际等【děng】即【jí】时战略游戏)的,过大的行为空间【jiān】会让训练【liàn】过程长期停【tíng】留在没有有效反【fǎn】馈的区域从而无法收敛。层【céng】级强化学习被【bèi】认为【wéi】是【shì】一种有【yǒu】希望帮助训练过程【chéng】快速走【zǒu】出【chū】低效【xiào】探【tàn】索的【de】方法【fǎ】,但【dàn】发展【zhǎn】仍不成熟。

OpenAI 对于【yú】 DOTA AI 的最终目标是【shì】开发出能够打败人类职业选手的 AI。显然这样的目【mù】标是【shì】无【wú】法【fǎ】一蹴而【ér】就【jiù】的,所以他【tā】们的指导思想是分步走,从英雄、物品【pǐn】、地图范围、策【cè】略都有高度限制的 1v1 比【bǐ】赛开始,然后逐步减少限制,同时逐步改【gǎi】善模型,一步步接【jiē】近【jìn】最【zuì】终目标;去年【nián】 TI(国际【jì】邀请【qǐng】赛)中 1v1 打败 Dendi,以及在测试【shì】比赛中打败 Sumail 的 DOTA AI 就是其中的第一步【bù】。对于【yú】这样的结【jié】果,初看【kàn】有【yǒu】些意外【wài】,但细想之下还是比较合理的。毕竟【jìng】玩 Atari 游戏【xì】我们都已经司空见惯【guàn】了。

对于【yú】接下【xià】来的【de】 5v5 AI(名为 OpenAI Five),自然也保留了诸【zhū】多【duō】限制,游戏环【huán】境【jìng】和各【gè】位玩家熟悉【xī】的样子有诸多不同。OpenAI Five 在这个环境里做了【le】多次迭【dié】代更新【xīn】,4 月 23 日版本首次打败了 OpenAI 自己编【biān】写的基于脚本的基准模型,5 月 15 日的版本与 OpenAI 员【yuán】工队伍(天梯分段 2500,高【gāo】于 46% 的玩家)打了一胜【shèng】一【yī】负;而 6 月 6 日的版本则【zé】在与【yǔ】业余战队【duì】(天梯分段 4200,高于 93% 的玩家)和半职业【yè】战【zhàn】队(天梯【tī】分段 5500,高于 99% 的玩家)的比【bǐ】赛中【zhōng】都赢得【dé】了三局中的前两【liǎng】局。

OpenAI Five 目前设定【dìng】的游戏中的限制有【yǒu】以下这【zhè】些方【fāng】面:

比赛双方【fāng】都使用固定的瘟疫法师、冥界【jiè】亚龙【lóng】、矮【ǎi】人火枪手【shǒu】、水晶【jīng】室女、巫妖 5 个英雄,而不【bú】是在超过 110 个【gè】英雄中任意选【xuǎn】择(显【xiǎn】然【rán】我们也可以推测出 OpenAI 就是以这组固定的英雄进行训练的)

禁止使用守卫,禁止使用隐身物品(消耗品及装备)

禁止使用幻象和分身

禁止打肉山

禁止购买圣剑、魔瓶、压制之刃、远行鞋、知识之书、眼泪

禁止使用扫描

OpenAI Five 方有【yǒu】五个无敌的信使【shǐ】,不过也禁止使用这些信【xìn】使看视野以及【jí】承受【shòu】伤害

显然【rán】各位【wèi】 DOTA 玩【wán】家一看就知道,仅英雄选择【zé】的限制这一项就【jiù】极【jí】大降低了游戏的复杂度;隐身、肉山之【zhī】类的禁用也缩【suō】小【xiǎo】了战【zhàn】略【luè】战术的【de】选择空间【jiān】;至于 5 个无敌的信使就更【gèng】像是对 5 个 AI 之间(也许并不理想的【de】)协【xié】作能力的妥协了【le】。

不过【guò】,能打败业余和半【bàn】职业战队的表现毕【bì】竟还是有一些【xiē】特色【sè】的,能在三【sān】局中【zhōng】赢得前两局也【yě】说明了 AI 的策略选【xuǎn】择【zé】与执行的效果。在几场比【bǐ】赛中 OpenAI Five 的玩法【fǎ】体现出【chū】了这些特【tè】点:

采取的【de】策略总是放空【kōng】自【zì】己的优势【shì】路,攻击对【duì】方的优势路(以及【jí】到中路的【de】这小半场),以求造成压力【lì】、形【xíng】成优【yōu】势。(所以人类职业选【xuǎn】手到了第三局【jú】也就能够【gòu】反制这样的固定策略了【le】)

OpenAI Five 五个【gè】英雄都集结在对【duì】方优【yōu】势路到中塔之【zhī】间的区域

快速主动地组织 gank 并推搭

比赛开【kāi】始 2 分钟,AI 的 2 级冰女【nǚ】和 2 级毒龙【lóng】 gank 中路

比【bǐ】赛前期给辅助英雄让钱让经验,这【zhè】让辅助英雄更【gèng】快地达到最高输出,同时【shí】也更【gèng】快地结【jié】束比【bǐ】赛

人类方进攻高地,AI 冰【bīng】女 BKB 跳大,配【pèi】合队友击杀对方四人复杂【zá】的强化学习任务比预想的【de】要简单?

即便游戏中【zhōng】有一【yī】些限制,但还是有足够的复杂度,而且我【wǒ】们也看到了 AI 在游【yóu】戏中的【de】精【jīng】彩表现。从技术角度来说【shuō】,这也给【gěi】了我们新的启发。

正如前文提到的,DOTA 中【zhōng】复杂的行动空间【jiān】以【yǐ】及对长【zhǎng】短期策略结合的需【xū】求的让领【lǐng】域内的研究者【zhě】,甚至【zhì】包括 OpenAI 的人自己【jǐ】都【dōu】认为 DOTA 需要【yào】层次化强化【huà】学习这样【yàng】的全新的【de】深【shēn】度学【xué】习【xí】技术,但其实只通过雷锋网 AI 科技评【píng】论也曾介绍过的近端策略【luè】优化 PPO就已经达到【dào】如此的【de】水平 —— 至少是在【zài】用足够大的规模做训练【liàn】,以及选【xuǎn】用了合适的超参数平衡了探索【suǒ】行为的程度的时候【hòu】。

OpenAI 使用了256 个 V100 GPU 和【hé】 128000 个【gè】 CPU 训【xùn】练模【mó】型,不使用人【rén】类数据,80% 的时间自【zì】我对【duì】弈,20% 的时间和【hé】过去的版本对弈。训练中每天进行的游戏数【shù】量时长【zhǎng】相当于大【dà】约 180 年【nián】。根据 DOTA 解说 Blitz 评价,OpenAI Five 的补刀只是普通玩家水平,但整场游戏的长【zhǎng】期策略执行【háng】已经有了职业选手水【shuǐ】准。用现有的方法【fǎ】就能达到【dào】短期策【cè】略【luè】和长期策略之间【jiān】的均衡,算是一【yī】项惊喜【xǐ】的发现。

另一方面,OpenAI Five 中使用的【de】模型架【jià】构也【yě】出【chū】人意料地简单。每一【yī】个英【yīng】雄由【yóu】一个单独的 LSTM 模型控制,而它【tā】只是一个单层的、含有 1024 个单元的【de】 LSTM 网络。网络从 Value (DOTA2 制作公司)提供的 BOT API 获取【qǔ】数据,然【rán】后【hòu】通过多个不【bú】同的动【dòng】作输出【chū】接【jiē】口进【jìn】行控制。

OpenAI Five 的网络架构图

OpenAI 对于反馈的设计也别有【yǒu】用【yòng】心。除了输赢之外也【yě】选用了【le】人类选【xuǎn】手常用的指【zhǐ】标【biāo】:总财产、击杀数、死亡【wáng】数、助攻数、补【bǔ】刀【dāo】数等【děng】等。但是为了避【bì】免【miǎn】 AI 过于关注这些【xiē】偏向于短期策略的数据,他们的反馈设计只鼓励 AI 在【zài】这些【xiē】方面做到人【rén】类玩家【jiā】的平均水平。

还【hái】有一【yī】个项目是【shì】 AI 之间的合【hé】作。OpenAI 并没有为 AI 之间设计显【xiǎn】式的沟通频道,目前他们设计【jì】了一个名【míng】为「团队【duì】精神」的【de】超参【cān】数,这个 0 到【dào】 1 之间的值会【huì】反应每个英雄关注自己【jǐ】单独【dú】的反馈和整个团队的【de】反【fǎn】馈之间的比例。在训【xùn】练中【zhōng】 OpenAI 通【tōng】过退火来优化这个值的具体【tǐ】大小。

总结

虽然我们【men】说到目前的 5v5 OpenAI Five 的实际【jì】表【biǎo】现不【bú】过如此,但以现有的资源和方法就达到【dào】了【le】超出预期的效【xiào】果【guǒ】,这也值得我们反思以【yǐ】往的强【qiáng】化学习研究【jiū】中,方法【fǎ】与实现是否有诸多做的不完善【shàn】的【de】地方才导致容易遇到训练困难【nán】、表现瓶【píng】颈、表现不稳【wěn】定性等问题;另【lìng】一【yī】方面,在现【xiàn】有方法【fǎ】的威力完全得【dé】到发挥的地方【fāng】,我们也更【gèng】容易清晰【xī】地看到继续提【tí】升表现【xiàn】还需要哪些创新。

OpenAI 还会【huì】在 7 月【yuè】 28 日组织顶尖人类职业【yè】玩家再【zài】与 OpenAI Five 进行比赛【sài】,这【zhè】之【zhī】前【qián】系统还会进行调试更新。我们期【qī】待 OpenAI Five 近期能有【yǒu】更新、更强的【de】表现,也期待它早日在无限制的完全【quán】展【zhǎn】现了 DOTA 复杂程度的环境中再展风姿【zī】,更【gèng】与 OpenAI 全体一【yī】起期待这些用于 DOTA AI 的技术能为更多真【zhēn】实世界【jiè】问题带来帮【bāng】助。

雷锋网 AI 科技评论报道。

标签: #dotaai地图哪个版本正版