歷史最高分!騰訊絕悟AI斬獲Minecraft AI競(jìng)賽冠軍

發(fā)布時(shí)間:2021-12-10 13:42:11  |  來源:通信世界全媒體  

(CWW)絕悟AI開始挑戰(zhàn)更復(fù)雜的開放世界游戲環(huán)境了。

Minecraft (中文譯名《我的世界》) 是全球最暢銷的開放世界3D游戲。隨機(jī)生成的開放地圖、自由靈活的玩法、多線程長鏈條任務(wù),給AI研究帶來了極大挑戰(zhàn)。針對(duì)Minecraft的復(fù)雜環(huán)境,游戲AI賽事MineRL邀請(qǐng)全球程序員在4天時(shí)間內(nèi)用一臺(tái)計(jì)算機(jī)訓(xùn)練AI找到游戲中的鉆石。

12月8日,第三屆MineRL競(jìng)賽主賽道 (research track) 發(fā)布成績(jī),AI 的“鉆石之夢(mèng)”向前踏進(jìn)了一大步:騰訊AI Lab“絕悟”以76.970分的絕對(duì)優(yōu)勢(shì)奪冠。研究成果已發(fā)布在Arxiv上,算法框架可復(fù)用于其他復(fù)雜決策環(huán)境。

(論文鏈接:https://arxiv.org/abs/2112.04907)

MineRL競(jìng)賽由卡內(nèi)基·梅隆大學(xué)、微軟、DeepMind、OpenAI,聯(lián)合機(jī)器學(xué)習(xí)頂級(jí)會(huì)議NeurIPS共同舉辦,極富挑戰(zhàn)性的賽題持續(xù)吸引全球開發(fā)者關(guān)注。今年賽事共有59支團(tuán)隊(duì)、近500名選手投身其中,其中不乏世界頂級(jí)學(xué)府和研究機(jī)構(gòu)的科研強(qiáng)隊(duì)。競(jìng)賽的研究主題是:訓(xùn)練樣本高效的Minecraft AI智能體。

騰訊AI Lab創(chuàng)新性地通過分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning)、表示學(xué)習(xí)(Representation Learning)、自模仿學(xué)習(xí)(Self-imitation Learning)、集成行為克?。‥nsemble Behavior Cloning)等算法高效實(shí)現(xiàn)比賽目標(biāo)。

絕悟AI以壓倒性優(yōu)勢(shì)獲得歷史最高分

極度多樣的環(huán)境、完全靠隨機(jī)種子生成的地圖、長決策序列與復(fù)雜的技能學(xué)習(xí)、高自由度玩法帶來的海量策略偏好都增加了Minecraft AI研究的難度。比如,為了讓AI在15分鐘內(nèi)找到鉆石,AI需要經(jīng)歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經(jīng)過一系列加工才能合成鉆石。

此外,主辦方還制定了種種嚴(yán)苛的規(guī)則:包括禁止參賽者編寫規(guī)則、游戲環(huán)境甚至將背包信息與動(dòng)作空間加密、且不允許使用預(yù)訓(xùn)練模型,只允許與環(huán)境最多交互八百萬次,每個(gè)參賽隊(duì)伍只能使用6核CPU與半張NVIDIA K80顯卡訓(xùn)練4天——這個(gè)配置幾乎對(duì)于所有高校實(shí)驗(yàn)室與個(gè)人研究者都可以負(fù)擔(dān)的。

這次比賽的目的在于促進(jìn)樣本高效 (Sample-efficient) 游戲AI算法的發(fā)展。目前流行的強(qiáng)化學(xué)習(xí)算法一般需要多達(dá)成百上千萬次的試錯(cuò)來尋找最優(yōu)流程,耗費(fèi)大量的時(shí)間和計(jì)算資源。而純靠人類數(shù)據(jù)的模仿學(xué)習(xí)算法雖然更快,但性能上往往不盡如人意。

(Minecraft 游戲截圖)

絕悟AI創(chuàng)新性地提出了一種樣本高效的基于分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning)的解決方案。數(shù)據(jù)表明,騰訊AI Lab推出的上層控制器的預(yù)測(cè)準(zhǔn)確率可以達(dá)到99.95%,也就是說,AI從人類數(shù)據(jù)中學(xué)到了一套幾乎不出錯(cuò)的宏觀策略,每時(shí)每刻都清晰地知道自己下一步的正確動(dòng)向。

在狀態(tài)空間表征上,Minecraft游戲遇到的最大挑戰(zhàn)在于如何理解復(fù)雜的開放地圖。首先被選中的是近年來熱門的表示學(xué)習(xí)方法 (Representation Learning)。但研究人員很快發(fā)現(xiàn),已有方法只適用于2D場(chǎng)景,在MineCraft游戲環(huán)境里效果很差。于是騰訊AI Lab設(shè)計(jì)了一種“基于動(dòng)作感知”(Action-aware Representation Learning)的新穎算法,用來捕捉每個(gè)動(dòng)作對(duì)環(huán)境產(chǎn)生的影響,形成注意力機(jī)制。實(shí)驗(yàn)表明,該算法可以顯著提升智能體獲得資源的能力與效率。

(不同動(dòng)作的可視化結(jié)果,AI學(xué)會(huì)了關(guān)注當(dāng)前圖像中的關(guān)鍵區(qū)域)

隨著游戲推進(jìn),智能體與人類的策略出現(xiàn)了很大的分歧。此時(shí),人類數(shù)據(jù)已經(jīng)很難用于指導(dǎo)AI。絕悟AI使用了自模仿學(xué)習(xí) (Self-imitation Learning)的思想,提出了基于鑒別器的自模仿學(xué)習(xí)算法,AI可以從自身過往的成功與失敗中獲得經(jīng)驗(yàn)與教訓(xùn),并在察覺到當(dāng)前狀況不妙的時(shí)候,主動(dòng)往更好的方向修正。對(duì)比實(shí)驗(yàn)證明,在加入自模仿策略后,智能體探索到的行為更加一致,也可以顯著降低進(jìn)入危險(xiǎn)區(qū)域的概率。

對(duì)于合成物品等需要長鏈條的動(dòng)作序列的任務(wù),研究人員也做了細(xì)致的優(yōu)化。通過動(dòng)作序列一致性過濾 (Consistency Filtering) 與基于投票的集成學(xué)習(xí) (Ensemble Learning),模型在合成物品階段的成功率從35%提升到96%,一舉將最薄弱的鏈條扭轉(zhuǎn)為了最穩(wěn)定的制勝點(diǎn)。

利用高度復(fù)雜、高度定制化的游戲場(chǎng)景作訓(xùn)練場(chǎng),騰訊 AI Lab 的深度強(qiáng)化學(xué)習(xí)智能體正不斷走近現(xiàn)實(shí)。棋牌游戲 AI “絕藝”從圍棋棋盤逐步走向象棋、麻將,策略協(xié)作型 AI “絕悟”從MOBA走向FPS、RTS,再到如今的 3D開放世界 MineCraft。它們邁向全新挑戰(zhàn)的每一步,都讓AI離解決現(xiàn)實(shí)問題、科技向善的大目標(biāo)更近了一步。

隨著虛實(shí)集成世界逐步變成現(xiàn)實(shí),這些研究的經(jīng)驗(yàn)、方法與結(jié)論,將在真實(shí)世界創(chuàng)造更大的實(shí)用價(jià)值。

關(guān)鍵詞: 資訊 通信世界網(wǎng) AI 騰訊AI-Lab 絕悟 Minecraft-AI競(jìng)賽

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com