把高糊視頻變清晰,對(duì)于 AI 而言算不上新鮮事。
但如果是實(shí)時(shí)處理,而且速度比主流方法還快了 9 倍呢?
這種圖像質(zhì)量和速度性能之間的平衡到底是怎么做到的?
今天就來(lái)看看東南大學(xué)的研究者們帶來(lái)的最新研究:4K 視頻實(shí)時(shí)超分辨率系統(tǒng) EGVSR。
GAN 保證重建質(zhì)量
為了使模型具有良好的感知質(zhì)量,生成對(duì)抗網(wǎng)絡(luò) GAN 成為了超分辨率研究中廣泛使用的一種方法。
比如,要處理 VSR 任務(wù)中大規(guī)模的分辨率退化,就常常依靠 GAN 的深度特征學(xué)習(xí)能力。
于是參考 TecoGAN 的設(shè)計(jì),EGVSR 系統(tǒng)引入了空間-時(shí)間對(duì)抗結(jié)構(gòu),用來(lái)幫助判別器理解和學(xué)習(xí)空間-時(shí)間信息的分布。
也避免了傳統(tǒng) GAN 在時(shí)域遇到的不穩(wěn)定效應(yīng)。
同時(shí),研究者參照高效 CNN 架構(gòu),為 EGVSR 設(shè)計(jì)了一個(gè)輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu):
其中,生成器部分分為 FNet 模塊和 SRNet 模塊,分別用于光流估計(jì)和視頻幀超分辨率。
接下來(lái),就是增強(qiáng) EGVSR 的實(shí)時(shí)處理能力了。
三種方法提升速度
研究者主要通過(guò)三種方法來(lái)提高網(wǎng)絡(luò)訓(xùn)練和推理的速度。
一、對(duì) BN 層進(jìn)行優(yōu)化。
在 EGVSR 網(wǎng)絡(luò)中,F(xiàn)Net 模塊里大量使用了 BN(批量歸一化)層。
因此,研究者省去計(jì)算 BN 的環(huán)節(jié),將其轉(zhuǎn)換為矩陣形式,利用 1×1 卷積層來(lái)實(shí)現(xiàn)和替換 BN 層:
優(yōu)化之后,速度就提高了 5% 左右。
二、尋找高效的上采樣方法。
上采樣層(Upsampling layer)是超分辨率網(wǎng)絡(luò)中最重要的部分之一。
因此,在保持其他網(wǎng)絡(luò)結(jié)構(gòu)和配置的情況下,研究者希望從以下三種上采樣方法中,選擇出一種在實(shí)際 SR 網(wǎng)絡(luò)中效率最高的:
A. 調(diào)整大小卷積(使用雙線性插值)
B. 去卷積(Deconvolution)
C. 子像素卷積(Sub-pixel convolution)
在使用這三種方法訓(xùn)練了多組 SR 網(wǎng)絡(luò)后,可以看到子像素卷積方法的效果最佳:
三、設(shè)計(jì)一種適合硬件部署的高效卷積算法
傳統(tǒng)的樸素卷積(Nnaïve Convolution)方法使用了 6 個(gè)循環(huán)結(jié)構(gòu),這導(dǎo)致它的計(jì)算效率相當(dāng)?shù)汀?/p>
因此,研究者們使用矩陣乘法(MatMul)算法通過(guò)逆向 col2im 轉(zhuǎn)換得到所需的輸出特征結(jié)果。
這樣,就將卷積計(jì)算轉(zhuǎn)換為了矩陣乘法。
也就通過(guò)內(nèi)存空間節(jié)省了推理時(shí)間,最終提高計(jì)算效率。
性能提升 7.92 倍
那么最終速度提升的效果如何呢?
可以看到,在使用 CPU 時(shí),對(duì)比經(jīng)典的 TecoGAN 算法,VESPCN 的速度最高能提升 9.05 倍。
而在使用 GPU 加速時(shí),VESPCN 最高也能比 TecoGAN 的性能提升 7.92 倍。
如果從總計(jì)算成本來(lái)看,EGVSR 僅為 VESPCN 的 29.57%,SOFVSR 的 12.63%,F(xiàn)RVSR 和 TecoGAN 的 14.96%。
與此同時(shí),EGVSR 也取得了較高的圖像細(xì)節(jié)重建質(zhì)量,結(jié)果最接近 GT(Ground Truth)圖像:
而對(duì)于多張圖像之間的連貫性評(píng)估,研究者們引入了兩個(gè)指標(biāo)來(lái)衡量 VSR 結(jié)果與相應(yīng)的 GT 參考結(jié)果之間的差異:
tOF:測(cè)量從序列中估計(jì)的運(yùn)動(dòng)的像素差異;
tLP:使用深度特征圖測(cè)量感知上的變化。
這說(shuō)明了在滿(mǎn)足時(shí)間連貫性的情況下,EGVSR 網(wǎng)絡(luò)可以恢復(fù)更多的空間細(xì)節(jié),滿(mǎn)足人眼的主觀感受。
所有實(shí)驗(yàn)的結(jié)果都表明,EGVSR 確實(shí)在保證 VSR 高視覺(jué)質(zhì)量的前提下,將計(jì)算負(fù)載降低到最低要求,完成了 4K VSR 在硬件平臺(tái)上的實(shí)時(shí)實(shí)現(xiàn)。
研究團(tuán)隊(duì)
論文的前三位作者都來(lái)自東南大學(xué)的國(guó)際信息顯示與可視化聯(lián)合研究實(shí)驗(yàn)室。
一作 Yanpeng Cao 目前研究生在讀,主要研究方向?yàn)榧用苡驁D像處理和圖像超分辨率等領(lǐng)域。
其余兩位分別是 Chengcheng Wang 和 Changjun Song。
最后一位作者 He Li 來(lái)自劍橋大學(xué)的工程系。
關(guān)鍵詞: 高糊視頻 東南大學(xué) 視頻 超分辨率系統(tǒng)