2021 世界人工智能大會(huì)走到了第四年,給人最明顯的感受就是 AI 已經(jīng)慢慢從酷炫的概念,逐漸被應(yīng)用到了更多的場(chǎng)景中?;行斡跓o(wú)形,潤(rùn)物細(xì)無(wú)聲,不知不覺(jué)中人們與 AI 的交集已經(jīng)越來(lái)越多。
不過(guò),就如馬化騰在開(kāi)幕式中提到的“對(duì) AI 的未知仍然大于已知”,在考慮到未來(lái)“通用 AI”成熟后面臨的道德?lián)u擺問(wèn)題之前,可能先要去解決的是路徑上的技術(shù)難題。而在這次的 AI 大會(huì)上,騰訊帶來(lái)的策略協(xié)作型 AI 王者絕悟,也許能夠成為未來(lái)通用 AI 探索之路上的一個(gè)“急先鋒”。
王者絕悟的“武林高手”晉升之路
王者絕悟,實(shí)際上是王者榮耀與騰訊 AI Lab 在游戲場(chǎng)景下研究的成果。
用通俗一點(diǎn)的話來(lái)理解“策略協(xié)作型 AI”,“策略”指的是 AI 能夠通過(guò)獲取到的信息,分析局勢(shì)優(yōu)化策略,做出更有利于獲勝的行為;“協(xié)作”指的是操作不同英雄的多個(gè)智能體能夠互相配合,協(xié)同推進(jìn)博弈。
一旦明白了所謂的“策略協(xié)作型 AI”的定義,也許就能理解為什么在 8 日下午的“職業(yè)人氣選手 VS 王者絕悟”表演賽上,王者絕悟能夠表現(xiàn)如此出色——團(tuán)戰(zhàn)越塔收割,完美撤退;以一敵眾,掩護(hù)隊(duì)友撤退,穩(wěn)固優(yōu)勢(shì)等等。
2021 世界人工智能大會(huì)
“職業(yè)人氣選手VS王者絕悟”表演賽現(xiàn)場(chǎng)
有趣的是,王者絕悟并非一開(kāi)始就這么“聰明”。事實(shí)上,回顧它的發(fā)展歷程,特別像經(jīng)典武俠小說(shuō)里,一個(gè)武林高手的成長(zhǎng)故事。
在 18 年面世的時(shí)候,王者絕悟通過(guò)監(jiān)督學(xué)習(xí),模擬了職業(yè)選手的操作,達(dá)到了頂尖業(yè)余水平。19 年,它開(kāi)始往深度強(qiáng)化學(xué)習(xí)課題上深入,達(dá)到了職業(yè)電競(jìng)水平。
好比一個(gè)初出茅廬的毛頭小子,開(kāi)始只能靠跟著師傅,“模仿”招式學(xué)習(xí)武功。但畢竟只是“模仿”,運(yùn)氣好學(xué)到的是“九陽(yáng)神功”,運(yùn)氣不好可能就只能學(xué)到個(gè)“葵花點(diǎn)穴手”。而到了深度學(xué)習(xí)階段,他決定不再模仿,而是開(kāi)始自己修煉,逐漸擺脫了那些“套路化”的招式。
到了 2020 年,王者絕悟又通過(guò)課程化自我博弈,從單個(gè)或者固定英雄組合,高效地?cái)U(kuò)充到更多英雄組合的學(xué)習(xí)。
而在騰訊 AI Lab 高級(jí)研究員、王者絕悟 AI 模型負(fù)責(zé)人邱福浩描述的王者絕悟最新版本中,它進(jìn)一步引用了多輪組合博弈和層次化的強(qiáng)化學(xué)習(xí)算法。也就是說(shuō),現(xiàn)在王者絕悟不僅能和你直接戰(zhàn)斗,甚至在戰(zhàn)斗之前的 BP 環(huán)節(jié),就已經(jīng)開(kāi)始思考策略,并且戰(zhàn)局中也能夠持續(xù)調(diào)整策略來(lái)應(yīng)對(duì)各種局面。
用邱福浩的來(lái)說(shuō),如今的王者絕悟,已經(jīng)達(dá)到全英雄職業(yè)電競(jìng)水平。
王者榮耀與騰訊 AI Lab 團(tuán)隊(duì)成員現(xiàn)場(chǎng)答疑
但是,就像改變世界的是“武道”,不是“武術(shù)”。王者絕悟在游戲場(chǎng)景、電競(jìng)行業(yè)中都有著直接、有效的幫助。但是,這還不足以稱其為“通用 AI 路徑上的一個(gè)急先鋒”。
真正值得一提的,是王者絕悟背后所代表的技術(shù)發(fā)展浪潮。
“人工 + 智能”向自主智能的進(jìn)化
現(xiàn)如今,AI 對(duì)于各行各業(yè)的賦能,已經(jīng)不用多說(shuō),從上下班打卡的人像識(shí)別、到陪玩游戲的語(yǔ)音助理…其價(jià)值已經(jīng)被大家廣泛認(rèn)知并認(rèn)可。
但是,AI 的開(kāi)發(fā)、訓(xùn)練、調(diào)試的過(guò)程中,如果完全放到現(xiàn)實(shí)中去進(jìn)行,存在成本高、風(fēng)險(xiǎn)大的問(wèn)題。因此,游戲是最好的虛擬化場(chǎng)景。從簡(jiǎn)單到復(fù)雜、從低級(jí)到高級(jí),AI 研究的不同歷史時(shí)期,都能找到對(duì)應(yīng)的、不同復(fù)雜度的游戲作為測(cè)試相關(guān)技術(shù)主要難題的技術(shù)試驗(yàn)場(chǎng)。
2016 年,AlphaGo 一戰(zhàn)成名。作為許多年前的“第一批 AI 網(wǎng)紅”,AlphaGo 的技術(shù)邏輯并不難理解:通過(guò)“走棋網(wǎng)絡(luò)”模仿棋手,然后借助樹(shù)搜索,分析戰(zhàn)況,推演未來(lái)的每一步棋的變化,接著憑借估值網(wǎng)絡(luò),分析局勢(shì),判斷勝率,最后做出行動(dòng)。
AlphaGo 對(duì)陣?yán)钍朗?/p>
但是,AlphaGo 僅僅是單體智能決策,而且圍棋是一個(gè)規(guī)則明確、完全信息透明的單人游戲。如今,真正在各個(gè)場(chǎng)景下發(fā)揮重大應(yīng)用價(jià)值的,是技術(shù)相對(duì)更加復(fù)雜的多智能體決策,這也就對(duì)測(cè)試環(huán)境提出了更高的要求。
簡(jiǎn)而言之,就是要模擬出一個(gè)工廠之類的環(huán)境,測(cè)試如何讓工廠里的各個(gè)機(jī)器人在不吵架(或者可以吵架)的前提下,既完成自己的小目標(biāo),也完成好組織要求的“裝好一輛汽車(chē)”的大目標(biāo)。
現(xiàn)實(shí)情況下,不可能天天給科學(xué)家們找?guī)准夜S來(lái)實(shí)驗(yàn)。于是,谷歌、Facebook、特斯拉等公司,開(kāi)始直接或者讓投資組合下的公司開(kāi)啟多智能體 AI 在多人競(jìng)技游戲環(huán)境下的實(shí)驗(yàn),而在中國(guó),王者榮耀與騰訊 AI Lab 一同推出了王者絕悟。
不過(guò),為什么偏偏是王者絕悟;或者說(shuō),為什么說(shuō)王者榮耀能成為一個(gè)絕佳的研究環(huán)境呢?
“王者榮耀的游戲機(jī)制具有很強(qiáng)的多人協(xié)作性、在不對(duì)稱信息下博弈空間極大、協(xié)作競(jìng)技性很強(qiáng),非常適合使用多智能體人工智能技術(shù)來(lái)提高生產(chǎn)和測(cè)試效率。此外,王者榮耀產(chǎn)品中的視野非全局性,敵我雙方的實(shí)時(shí)位置、狀態(tài)能信息非理想透明,游戲測(cè)試環(huán)境中能提供豐富的數(shù)據(jù),模擬的場(chǎng)景,為研究模仿學(xué)習(xí)提供了保障;再者,天然的層次結(jié)構(gòu),在高層次對(duì)應(yīng)大局觀,在低層次中對(duì)應(yīng)了微操,適合層次強(qiáng)化學(xué)習(xí)研究。”騰訊互動(dòng)娛樂(lè)天美 L1 工作室總經(jīng)理、王者榮耀執(zhí)行制作人黃藍(lán)梟說(shuō)到。
2020 年,王者絕悟正式與玩家“見(jiàn)面”
與 AlphaGo 相比,王者絕悟在技術(shù)復(fù)雜度與應(yīng)用價(jià)值上,都有了顯著的提升。據(jù)了解,王者絕悟在一局里有高達(dá) 10 的 20000 次方種操作可能性,整個(gè)宇宙原子總數(shù)也只是 10 的 80 次方。
面對(duì)這么復(fù)雜的決策,王者絕悟這幾年飛速成長(zhǎng),訓(xùn)練效率非常高,一天的訓(xùn)練強(qiáng)度高達(dá)人類 440 年。
表面上,選手和王者絕悟打了一場(chǎng)電競(jìng)表演賽。但是實(shí)際上,王者絕悟背后,是 AI 從單體智能交互,到與多智能體交互的發(fā)展變化,這是其一。其二,是 AI 成長(zhǎng)模式的進(jìn)化:人工干預(yù)開(kāi)始減少,機(jī)器智能對(duì)于環(huán)境的自主學(xué)習(xí)能力大大增強(qiáng),從模仿學(xué)習(xí),到深度學(xué)習(xí),從“人工 + 智能”向自主智能轉(zhuǎn)化。
如今,王者絕悟已經(jīng)有了幾個(gè)兄弟,可以應(yīng)用于足球、FPS、RTS 游戲,并且都達(dá)到了國(guó)際領(lǐng)先水平,其可遷移性得到了論證。此外,當(dāng)王者絕悟從 0 到 1 去學(xué)習(xí)進(jìn)化,并發(fā)展出一套合理的行為模型之后,其中的方法和經(jīng)驗(yàn),也能夠在其他醫(yī)療、制造、無(wú)人駕駛等場(chǎng)景中得到運(yùn)用。
以上種種,一方面,代表著人們距離多智能體的大范圍實(shí)際應(yīng)用在技術(shù)層面又向前走了一步;另一方面,也意味著“通用人工智能”在技術(shù)路徑上,也不再那么遙不可及。這才是王者絕悟背后真正的價(jià)值所在。
2021 世界人工智能大會(huì)現(xiàn)場(chǎng),王者絕悟展區(qū):觀眾圍觀王者絕悟演示
【結(jié)束語(yǔ)】
1943 年,圖靈制造了一個(gè)叫做“巨人”的機(jī)器,用于破解德軍的密碼電報(bào),標(biāo)志著 AI 的誕生。2012 年,華裔科學(xué)家吳恩達(dá)展現(xiàn)了一個(gè)超強(qiáng)的神經(jīng)網(wǎng)絡(luò),在自助觀看千萬(wàn)張圖片之后,識(shí)別圖片內(nèi)容,開(kāi)啟了 AI 的新時(shí)代。
可以發(fā)現(xiàn),AI 與人類對(duì)戰(zhàn),并不是其誕生的理由;AI 戰(zhàn)勝人類,也不是其誕生的目的。這是人們?cè)谧呦蛲ㄓ?AI 上的一條“捷徑”,讓人們以一種更低成本、更安全、更有效的方式走向那個(gè)科幻般的未來(lái)。
王者絕悟的多智能體博弈和自生長(zhǎng)能力,是通用人工智能(AGI)成長(zhǎng)路徑上的關(guān)鍵技術(shù)節(jié)點(diǎn)。在如此復(fù)雜的虛擬環(huán)境下,如果 AI 能夠表現(xiàn)出較高的智能水平,那么,在真實(shí)世界中的應(yīng)用前景就更值得期待了。
當(dāng)然,在這其中,王者絕悟并不是第一個(gè),也不會(huì)是最后一個(gè)。但是,數(shù)字時(shí)代的潮水還在向前奔流,每一朵大的浪花都值得銘記。