泓泰

AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?

admin
AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?-第1张-游戏相关-泓泰

前言:

而今朋友们对“dotaai原理”大概比【bǐ】较着重,看官们【men】都想要剖析一些“dotaai原理”的相【xiàng】关文【wén】章。那么小【xiǎo】编【biān】也在网【wǎng】络上汇集了一些对于“dotaai原理””的相关文章,希望大【dà】家能喜欢,朋友们一起【qǐ】来学【xué】习一【yī】下吧!

随着昨日【rì】 OpenAI Five 被一支中国【guó】队伍【wǔ】打败【bài】以及【jí】前天【tiān】的另一场失败【bài】, AI 提前结束了其在本届DOTA 2 国际顶尖赛事【shì】 TI 8 的旅程。

回顾这两场比赛,虽【suī】然 AI 在比赛的前【qián】 9-21 分钟内保持【chí】了很好的获胜机【jī】会,但 OpenAI Five 最终仍没有把握住机【jī】会:第一【yī】场比赛 AI 对阵世界排名前 18 的【de】队伍的 paiN Gaming,比赛持续了大约 51 分钟(一般【bān】比赛持续 40 分钟);在第二场比赛中,AI 对阵由【yóu】中【zhōng】国【guó】退役【yì】顶尖【jiān】玩家组成的【de】队伍,其中三人曾【céng】在一支【zhī】明星队伍【wǔ】中比赛过,在经历了一些【xiē】精彩额【é】来回战斗【dòu】后,人【rén】类 45 分【fèn】钟后获胜【shèng】。

OpenAI Five 在比【bǐ】赛中【zhōng】确实展现了自【zì】己一定的实【shí】力【lì】,根据 OpenAI 赛【sài】后发布的【de】博客文章,导致失败的主要原因是对战的游戏玩家明显实【shí】力比 AI 高【gāo】出不少量级 ,如今【jīn】年5月以来玩家排【pái】名的图表【biǎo】所【suǒ】示:

图|各个队伍的实力分布(来源:OpenAI )

除此之外,缺乏战略规划也导致了 AI 的失败。

“我【wǒ】们【men】并不感到震惊,”OpenAI 成【chéng】员【yuán】 Filip Wolski 赛【sài】后对媒体表示【shì】。“我们以极高的不【bú】确【què】定性参【cān】加了比赛。我们不知【zhī】道某些因素【sù】,比如在比赛那【nà】天我们会对战谁”。

在周【zhōu】三【sān】遭【zāo】遇首【shǒu】次失败之后,开发人员【yuán】也【yě】重新调【diào】整【zhěng】了 AI 的奖励系统,试图最大【dà】限【xiàn】度地获得【dé】胜【shèng】利的机会。Wolski 向表示:“当机器人【rén】赢得比赛时,最大【dà】的【de】回报是给予奖励【lì】……这个项目【mù】让我们经历了【le】很多不眠【mián】之【zhī】夜,我们会休【xiū】息一下,并考【kǎo】虑是【shì】否为 AI 上传新的超参数【shù】。我们将继续研究Dota 2,以便更好地使用越来越【yuè】少的限【xiàn】制来玩游戏。”

总【zǒng】体【tǐ】来说,在【zài】保留一定限制【zhì】的前提下,OpenAI 的【de】系统仍然无法全面理解 DOTA复杂的【de】游戏【xì】系统和规则,比【bǐ】如对侦查守卫和诡计之【zhī】雾的错【cuò】误使用,站在 Roshan 洞【dòng】穴发呆【dāi】,将【jiāng】 Roshan 复活盾交给辅助等等。这些行【háng】为【wéi】和操作无【wú】疑【yí】浪费了游戏中宝贵的资源【yuán】和稍纵即逝的【de】战机。

退一步讲,即【jí】使 AI 系统对这【zhè】些物【wù】品和机制有【yǒu】人类无【wú】法理解的“独特看【kàn】法【fǎ】”,但是结合局势来看,这【zhè】些做法似乎不【bú】符合 OpenAI 团【tuán】队所说的“为全局【jú】最优设计的算法”,反倒像是 AI 系统在【zài】通【tōng】过不断试【shì】错,来找到物品的正确【què】使用方法和机制背后蕴藏的原理。这或许是【shì】因为【wéi】新的 AI 算法还【hái】存在 Bug 和训【xùn】练时间不足。

图:OpenAI 在泉水处疯狂插眼

纵观八月中旬和 TI8 的几场比【bǐ】赛,OpenAI 的【de】系统【tǒng】似乎并没有展现出太多的进步。虽然比【bǐ】赛规则有所调整,但是【shì】面对更【gèng】加默契和高水平的职业队【duì】伍时,AI 系统精密计【jì】算的技能释放【fàng】和【hé】反应极快的微操【cāo】可以惊【jīng】艳观众,打赢【yíng】遭遇【yù】战,但是无法带来胜利。

归根结底,这是因为规则修改后的游戏【xì】更加真实,同时顶级职业选手【shǒu】对 Dota 的理解更【gèng】加成熟,比如抱团、刷野【yě】和带线的【de】时机【jī】;对战术【shù】的执【zhí】行【háng】更【gèng】为彻底【dǐ】,比【bǐ】如【rú】黑皇杖等关【guān】键装备出炉后的开【kāi】雾抓【zhuā】人;针对不【bú】同局势的【de】出【chū】装也更加灵活,比如关键【jiàn】英雄补出永恒之盘,防止被秒。

这【zhè】些战【zhàn】略上【shàng】的部署是【shì】目前 AI 系【xì】统所【suǒ】缺失【shī】的,它还无【wú】法针对局势制【zhì】定和变化【huà】战术【shù】。本质上讲,如【rú】果人【rén】类选手的所有操作都可以被 AI视为一种输入【rù】值,那么 OpenAI 的强【qiáng】大算法就会处理这些输入值,并产生相应【yīng】的【de】输出值【zhí】,即 AI 英雄的操作【zuò】。显而易【yì】见,AI 通常可以【yǐ】完美【měi】地执行这些反馈【kuì】操作【zuò】,比如利用【yòng】跳刀和风杖躲斧王跳吼。

图丨【shù】OpenAI 开【kāi】发团队亮【liàng】相 TI 8 (来源:TI 8)

然而 AI 系统缺少【shǎo】在无【wú】信息情【qíng】况下的主【zhǔ】动【dòng】的预测性【xìng】行动,比如在特定位置被抓后进行【háng】反眼,在【zài】关键时间点组织开雾进攻,或者围绕【rào】 Roshan 盾进【jìn】行推进【jìn】和【hé】反打。这种特征在【zài】逆风局势下【xià】尤为明显,因为 OpenAI 作为被动的【de】一方需要寻求【qiú】突破口来打【dǎ】开局面,有效的战术转变是一种【zhǒng】必须【xū】掌握的技能。

图|OpenAI 重大事件时间轴 (来源:DT君)

值得注意的是,OpenAI Five 整个从零开【kāi】始【shǐ】最终达【dá】到【dào】世界级职业玩家水平的道路【lù】中【zhōng】,并没有使用任何人类【lèi】提供的额【é】外数【shù】据进行【háng】训练【liàn】。但【dàn】在这次比赛结束后,如果开发团队希望 AI 能【néng】够更快地进步,他们真的需要考虑让 AI 学【xué】习人【rén】类的【de】经验了。

标签: #dotaai原理