誰說阿爾法狗們只會(huì)下棋玩游戲?DeepMind用它們給油管視頻做壓縮

發(fā)布時(shí)間:2022-02-14 06:23:04  |  來源:騰訊網(wǎng)  

選自DeeMind博客

作者:The MuZero Applied Team

機(jī)器之心編譯

機(jī)器之心編輯部

在保證視頻質(zhì)量相似的前提下,DeepMind 的 MuZero 可以降低大約 4% 的比特率。

2016 年,DeepMind 推出了第一個(gè)能夠在圍棋中擊敗人類的智能體——AlphaGo。在之后的幾年里,其繼任者 AlphaZero 和MuZero繼續(xù)向通用算法進(jìn)發(fā),用更少的預(yù)定義知識(shí)掌握了更多的游戲。例如,MuZero 在沒有被告知規(guī)則的情況下就掌握了象棋、圍棋、日本將棋和雅達(dá)利游戲。

然而,說來說去,這些應(yīng)用還是沒能脫離游戲的范疇,能不能用它們來解決現(xiàn)實(shí)世界的問題一直是外界關(guān)注的焦點(diǎn)。

昨天,DeepMind 在博客中公布了一個(gè)好消息:他們的 MuZero 已經(jīng)向現(xiàn)實(shí)世界邁出了第一步,展現(xiàn)出了在優(yōu)化視頻壓縮質(zhì)量方面的潛力。相關(guān)細(xì)節(jié)呈現(xiàn)在一篇預(yù)印版論文中。

論文鏈接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在這項(xiàng)研究中,DeepMind 的研究者和 YouTube 展開了合作,一起探索 Muzero 在視頻壓縮領(lǐng)域的潛力。分析人士預(yù)測(cè),流媒體視頻將占據(jù)互聯(lián)網(wǎng)流量的絕大部分。為了節(jié)省帶寬,視頻在傳輸之前就必須進(jìn)行壓縮。這樣一來,如何將壓縮后的視頻畫質(zhì)、流暢度等損失降到最小就成了視頻廠商關(guān)注的重要問題,也是一個(gè)有望用強(qiáng)化學(xué)習(xí)解決的問題。DeepMind 的 Muzero 可以在保證視頻質(zhì)量相似的前提下降低大約 4% 的比特率。

大多數(shù)在線視頻依賴于編解碼器在視頻的源頭對(duì)其進(jìn)行壓縮或編碼,然后通過互聯(lián)網(wǎng)將其傳輸給觀眾,最后再解壓或解碼播放。這些編解碼器為視頻中的每一幀做出多個(gè)決定。經(jīng)過幾十年的手工工程,這些編解碼器已經(jīng)實(shí)現(xiàn)了一定程度的優(yōu)化,在視頻點(diǎn)播、視頻通話、視頻游戲和虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域得到了應(yīng)用,但還有很大的優(yōu)化空間。

由于強(qiáng)化學(xué)習(xí)特別適用于像編解碼器那樣的順序決策問題,所以 DeepMind 就在這個(gè)問題上展開了探索。

他們的首個(gè)研究對(duì)象是被 YouTube 和其他流媒體服務(wù)廣泛使用的 VP9 編解碼器(特別是開源版本 libvpx)。與其他編解碼器一樣,使用 VP9 的服務(wù)提供商需要考慮比特率。比特率是指發(fā)送每幀視頻所需的 1 和 0 的數(shù)量,是服務(wù)和存儲(chǔ)視頻所需的計(jì)算量和帶寬的主要決定因素,影響視頻加載所需時(shí)間、分辨率、緩沖和數(shù)據(jù)使用等很多指標(biāo)。

在編碼視頻時(shí),編解碼器使用之前幀的信息來減少未來幀所需的比特?cái)?shù)。

在 VP9 中,優(yōu)化比特率最直接的方法是借助速率控制模塊中的量化參數(shù)(QP)。這個(gè)參數(shù)決定了每一幀要應(yīng)用的壓縮級(jí)別。給定一個(gè)目標(biāo)比特率,視頻幀的 QP 按順序決定,以實(shí)現(xiàn)整體視頻質(zhì)量最優(yōu)化。直觀地說,我們應(yīng)該為復(fù)雜場(chǎng)景分配較高的比特率(較低的 QP),為靜態(tài)場(chǎng)景分配較低的比特率(較高的 QP)。QP 選擇算法解釋了視頻幀的 QP 值如何影響其他視頻幀的比特率分配和整體視頻質(zhì)量。強(qiáng)化學(xué)習(xí)對(duì)于解決這類序列決策問題特別有幫助。

對(duì)于 VP9 處理的每一幀視頻,MuZero-RC 取代 VP9 的默認(rèn)速率控制機(jī)制,決定應(yīng)用的壓縮級(jí)別,從而在較低的比特率下獲得相似的質(zhì)量。

MuZero 結(jié)合了搜索能力和學(xué)習(xí)環(huán)境模式并做出相應(yīng)計(jì)劃的能力,在各種任務(wù)中實(shí)現(xiàn)了超越人類的表現(xiàn)。這種方法在大型的組合動(dòng)作空間中特別有效,使其成為解決視頻壓縮速率控制問題的理想候選方案。

然而,要讓 MuZero 處理這一現(xiàn)實(shí)世界的問題,還需要解決一系列全新的問題。例如,上傳到 YouTube 等平臺(tái)的視頻集在內(nèi)容和質(zhì)量上存在差異;任何智能體都需要泛化至不同的視頻,包括部署后的全新視頻。相比之下,棋盤游戲往往只有一個(gè)已知環(huán)境。而在視頻任務(wù)上,許多其他的指標(biāo)和約束會(huì)影響最終的用戶體驗(yàn)和比特率節(jié)省程度,比如 PSNR(峰值信噪比)和比特率約束。

為了應(yīng)對(duì)這些挑戰(zhàn),DeepMind 為 Muzero 創(chuàng)建了一種名為「自我競(jìng)爭(zhēng)(self-competition)」的機(jī)制,它通過比較智能體當(dāng)前的性能和歷史性能,將視頻壓縮的復(fù)雜目標(biāo)轉(zhuǎn)化為一個(gè)簡(jiǎn)單的 WIN/LOSS 信號(hào)。這使得一組豐富的編解碼器需求轉(zhuǎn)換成了一個(gè)簡(jiǎn)單的信號(hào),再由智能體進(jìn)行優(yōu)化。

通過學(xué)習(xí)視頻編碼的動(dòng)態(tài)變化和確定如何最好地分配比特,MuZero 速率控制器(MuZero-RC)能夠在不降低質(zhì)量的情況下降低比特率。QP 選擇只是編碼過程中眾多編碼決策中的一個(gè)。雖然幾十年的研究和工程已經(jīng)產(chǎn)生了高效的算法,DeepMind 還是設(shè)想了單一的算法可以自動(dòng)學(xué)習(xí)作出這些編碼決定,以獲得最佳的率失真權(quán)衡。

使用先前 QP 啟發(fā)式方法編碼的視頻

使用 MuZero-RC 編碼的視頻。借助 MuZero-RC,每個(gè)視頻都能在降低所需的比特率的情況下獲得相似的質(zhì)量。實(shí)驗(yàn)表明,在大量不同的 YouTube 實(shí)時(shí)視頻中,比特率平均降低了 4% 。

除了視頻壓縮,這項(xiàng)研究的意義還在于他們邁出了將 MuZero 應(yīng)用于現(xiàn)實(shí)世界的第一步,證明了強(qiáng)化學(xué)習(xí)智能體可以用于解決現(xiàn)實(shí)世界的問題。DeepMind 表示,通過創(chuàng)建具有一系列新能力的智能體來改進(jìn)跨領(lǐng)域的產(chǎn)品,他們可以幫助各種計(jì)算機(jī)系統(tǒng)變得更快、更自動(dòng)化。公司的長(zhǎng)期愿景是開發(fā)一個(gè)單一算法,用于優(yōu)化數(shù)以千計(jì)的跨越各種領(lǐng)域的現(xiàn)實(shí)世界系統(tǒng)。

關(guān)鍵詞: 誰說阿爾法狗們只會(huì)下棋玩游戲?DeepMind用它們給油管視

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com