人工智能“索菲”,超越人類車手冠軍

發(fā)布時(shí)間:2022-02-17 22:27:09  |  來(lái)源:騰訊網(wǎng)  

AI已經(jīng)成為許多電子游戲的關(guān)鍵元素,它讓非人類玩家的盟友和對(duì)手能夠根據(jù)玩家的行動(dòng)進(jìn)行智能決策和行動(dòng),從而讓人類玩家能夠體驗(yàn)更精彩的游戲感覺。

但隨著游戲變得越來(lái)越復(fù)雜——融入了越來(lái)越逼真的物理效果,復(fù)雜的游戲機(jī)制,以及玩家對(duì)非人類的人工智能的高期望——AI已經(jīng)很難跟上那些更真實(shí)場(chǎng)景和行為的游戲世界。這個(gè)問題對(duì)于像《Gran Turismo》系列這樣的游戲來(lái)說(shuō)尤其嚴(yán)重(這是一款賽車游戲系列,標(biāo)榜自己是一款“逼真的駕駛模擬器”,并且是最暢銷的PS游戲。)

現(xiàn)在,索尼和Polyphony Digital(《GT賽車》系列的開發(fā)者)發(fā)布了一款經(jīng)過深度強(qiáng)化學(xué)習(xí)訓(xùn)練的復(fù)雜人工智能“索菲”(Sophy),經(jīng)過兩年的練習(xí),它可以超越世界上最熟練的人類《GT賽車》車手。

電子賽車游戲的困難之處是什么?

與《馬里奧賽車》這類卡通游戲相比,強(qiáng)調(diào)真實(shí)性的《Gran Turismo》給AI帶來(lái)了特別的困難。在GT中,從基本的物體交互到道路狀況,再到汽車和輪胎類型,真實(shí)世界駕駛的精確物理過程都被精心復(fù)制。這就給GT的AI帶來(lái)了問題,這與我們?cè)诂F(xiàn)實(shí)世界中設(shè)計(jì)AI時(shí)所面臨的問題如出一轍。

賽車本質(zhì)上是控制邊緣駕駛汽車。估計(jì)制動(dòng)點(diǎn),找到最佳路線,尋找賽道上的抓地力以最大化速度和控制本身都是非常有趣的機(jī)器學(xué)習(xí)問題,但比賽意味著你不是一個(gè)人在賽道上飛馳。其他司機(jī)影響汽車的動(dòng)力學(xué),讓情況更加復(fù)雜。

還有戰(zhàn)術(shù)上的問題:在賽道上找到超越對(duì)手的路線,并考慮對(duì)手可能的反應(yīng)。賽車手還需要遵守關(guān)于滑出賽道和碰撞的規(guī)則(如果個(gè)別選手被發(fā)現(xiàn)有過錯(cuò),他們可能會(huì)受到計(jì)時(shí)處罰)。在賽車比賽中有一個(gè)公平競(jìng)爭(zhēng)的概念——碰撞不應(yīng)該被用作贏得比賽的工具,但這一原則必須與贏得比賽所必需的侵略性水平相權(quán)衡。找到正確的平衡是一個(gè)真正的挑戰(zhàn)。

AI必須在整個(gè)比賽過程中做出那些實(shí)時(shí)決定。

該項(xiàng)目始于2020年4月,當(dāng)時(shí)索尼成立了人工智能部門,目的是“加快人工智能的基礎(chǔ)研究和開發(fā),提高人類的想象力和創(chuàng)造力,特別是在娛樂領(lǐng)域?!睆囊婚_始,索尼AI就與Polyphony Digital合作開發(fā)AI驅(qū)動(dòng)程序。

索尼人工智能研究人員在登上《自然》雜志封面的一篇論文中解釋說(shuō):“我們使用一種新的深度RL(強(qiáng)化學(xué)習(xí))算法。這種方法學(xué)習(xí)了一個(gè)策略,該策略根據(jù)情況觀察選擇一個(gè)行動(dòng),并評(píng)估每個(gè)可能行動(dòng)的未來(lái)回報(bào)的價(jià)值函數(shù)。根據(jù)在跑道上前進(jìn)的速度得到一份進(jìn)度獎(jiǎng)勵(lì),如果越界、撞墻或失去牽引力就會(huì)受到處罰。這些成形的獎(jiǎng)勵(lì)讓AI能夠快速地收到積極的反饋,保持在賽道上并快速駕駛?!?/p>

但“索菲“一開始并不是一名優(yōu)秀的駕駛員——事實(shí)上,索尼表示,一開始人工智能幾乎不能保持在賽道上的直線。不過,隨著時(shí)間的推移,人工智能能夠了解軌跡曲率、速度、車輪旋轉(zhuǎn)和其他變量的組合會(huì)帶來(lái)更好的結(jié)果。研究人員寫道:“值得注意的是,‘索菲’在短短幾個(gè)小時(shí)內(nèi)就學(xué)會(huì)了繞跑道跑,而且比我們參考數(shù)據(jù)集里95%的人類都快?!?/p>

這一過程在數(shù)千個(gè)模擬中反復(fù)進(jìn)行。這些模擬是在索尼的硬件上運(yùn)行的,這些硬件通常用于云游戲(用戶通過訪問極低延遲的數(shù)據(jù)中心來(lái)玩游戲,而不是在本地硬件上運(yùn)行游戲)。

研究人員寫道:“每個(gè)GT‘索菲’在PlayStation上控制多達(dá)20輛汽車,這加快了數(shù)據(jù)收集。我們通常使用10-20臺(tái)playstation從頭開始訓(xùn)練‘索菲’,使用相同數(shù)量的計(jì)算實(shí)例和一臺(tái)GPU機(jī)器來(lái)異步更新神經(jīng)網(wǎng)絡(luò)?!?/p>

由于任務(wù)的復(fù)雜性,訓(xùn)練過程出現(xiàn)了一些問題?!皟H靠進(jìn)程獎(jiǎng)勵(lì)不足以激勵(lì)A(yù)I贏得比賽。如果對(duì)手足夠快,就需要學(xué)會(huì)跟隨,也能積累大量的獎(jiǎng)勵(lì),而不會(huì)有潛在災(zāi)難性碰撞的風(fēng)險(xiǎn)?!?/p>

研究人員還必須引入不可預(yù)測(cè)的駕駛員——索菲不能只和自己比賽,否則它就無(wú)法應(yīng)對(duì)不可預(yù)測(cè)的人類對(duì)手。例如,當(dāng)一個(gè)人進(jìn)入一個(gè)困難的彎道時(shí),他們可能會(huì)比AI提前幾分之一秒剎車。即使是在錯(cuò)誤的時(shí)刻的一個(gè)小碰撞,也會(huì)導(dǎo)致對(duì)手失去對(duì)汽車的控制。

遇到困難

最終,是時(shí)候讓“索菲”面對(duì)它的目標(biāo)——人類了。2021年7月,索菲的研發(fā)開始一年多后,索菲與人類駕駛員之間舉行了第一場(chǎng)比賽。在單人訓(xùn)練中,它已經(jīng)表現(xiàn)出了超常的圈速——它就會(huì)超越它后面的人類。但當(dāng)比賽越來(lái)越激烈時(shí),人工智能難以處理與其他車手頻繁互動(dòng)的復(fù)雜性,總的來(lái)說(shuō),四人人類車隊(duì)以86比70擊敗了索菲車隊(duì)。

在第一場(chǎng)比賽之后,研究人員改進(jìn)了訓(xùn)練機(jī)制,增加了網(wǎng)絡(luò)的規(guī)模,修改了特征和獎(jiǎng)勵(lì)。

幾個(gè)月后,又進(jìn)行了一場(chǎng)比賽。這一次,結(jié)果大不相同——學(xué)習(xí)的成果得到了回報(bào),索菲擊敗了對(duì)手,獲得了兩倍的分?jǐn)?shù)(人類52分,人工智能104分)。Polyphony團(tuán)隊(duì)指出,AI在一場(chǎng)比賽中取得了驚人的成就:徹底擊敗對(duì)手。這與7月的比賽相比是一個(gè)巨大的進(jìn)步。

當(dāng)然,Sophy仍然面臨著挑戰(zhàn)。盡管Sophy展示了足夠的戰(zhàn)術(shù)技能,可以在面對(duì)面的比賽中擊敗人類專家,但仍有許多方面有待改進(jìn),尤其是在戰(zhàn)略決策方面。

這有什么意義呢?

Polyphony謹(jǐn)慎地強(qiáng)調(diào),Sophy并不是為了取代人類玩家,而是為了引導(dǎo)人類玩家,提升玩家與非玩家之間的競(jìng)賽,目標(biāo)最終還是娛樂大眾。

索尼互動(dòng)娛樂設(shè)想,在未來(lái),人工智能可以向開發(fā)者和創(chuàng)造者展示更多創(chuàng)新,并打開未被想象的機(jī)遇之門。用戶粘性也會(huì)提升,并帶來(lái)更好的游戲體驗(yàn),吸引新一代玩家進(jìn)入游戲世界。例如一名人類車手曾談起觀看“索菲”的比賽是如何激勵(lì)她在賽道上嘗試她之前沒有考慮過的新策略的。

關(guān)鍵詞: 人工智能ldquo索菲rdquo 超越人類車手冠軍 polyphonydigit

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com