計(jì)算機(jī)視覺(jué)世界三大頂會(huì)之一的CVPR 2021論文接收結(jié)果出爐!本次大會(huì)收到來(lái)自全球共7015篇有效投稿,最終有1663篇突出重圍被錄取,錄用率約為23.7%。本次,騰訊優(yōu)圖實(shí)驗(yàn)室共有20篇論文被收錄,其中Oral論文4篇,涵蓋人臉識(shí)別、對(duì)抗攻擊、時(shí)序動(dòng)作定位、視頻動(dòng)作分割、無(wú)監(jiān)督人臉質(zhì)量評(píng)估等前沿領(lǐng)域。
01
基于超球流形置信度學(xué)習(xí)的人臉識(shí)別
Spherical Confidence Learning for Face Recognition
本論文已被CVPR 2021接收為Oral論文。最新的研究發(fā)現(xiàn),球形空間可以更好地匹配人臉圖像的基本幾何形狀,這一點(diǎn)已經(jīng)在目前最先進(jìn)的人臉識(shí)別方法中得到證實(shí)。然而,這些方法依賴于確定性的特征表達(dá),因此會(huì)遇到特征歧義性的表達(dá)難題。PFE是解決這一難題的首次嘗試。為了進(jìn)一步解決PFE應(yīng)用時(shí)的不足,我們提出了一種用于球形空間中人臉置信度學(xué)習(xí)的新穎框架。在數(shù)學(xué)上,我們將von Mises Fisher密度推廣到其r半徑對(duì)應(yīng)項(xiàng),并導(dǎo)出優(yōu)化目標(biāo)的閉式解。我們從理論上表明,所提出的框架具有更好的可解釋性,進(jìn)一步推導(dǎo)出了特征融合與特征比對(duì)的數(shù)學(xué)表達(dá)式。在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)上廣泛的實(shí)驗(yàn)結(jié)果證實(shí)了我們的假設(shè)和理論,并展示了我們的框架在風(fēng)險(xiǎn)控制的識(shí)別任務(wù)以及人臉驗(yàn)證和識(shí)別任務(wù)中相對(duì)于先前的概率方法和常規(guī)球形確定性嵌入的優(yōu)越性能。
02
在開放的人像集合中學(xué)習(xí)3D人臉的聚合與特異化重建
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection
本論文已被CVPR 2021接收為Oral論文。非參數(shù)化的人臉建模旨在不依賴幾何假設(shè)的情況下從圖像中重建3D人臉。盡管這類方法能夠預(yù)測(cè)一定的細(xì)節(jié),但其傾向于過(guò)度依賴局部顏色表觀,且易受到噪聲的干擾。為處理該問(wèn)題,本文提出一種新的聚合與特異化學(xué)習(xí)框架(LAP)以實(shí)現(xiàn)無(wú)監(jiān)督的3D人臉建模。該方法從無(wú)約束的人像集合中隱式的解耦I(lǐng)D一致和場(chǎng)景特異的人臉。具體地,為學(xué)習(xí)ID一致人臉,LAP基于一種新的帶有松弛一致性損失的課程學(xué)習(xí)方法,自適應(yīng)地聚合同一身份的本征人臉元素。為了使人臉適應(yīng)于某一特異的場(chǎng)景,我們提出了一個(gè)新的屬性調(diào)整網(wǎng)絡(luò)以使用目標(biāo)屬性和細(xì)節(jié)修改ID一致人臉?;诒疚牡姆椒?使得無(wú)監(jiān)督的3D人臉受益于有意義的人臉結(jié)構(gòu)信息和更高的分辨率。在公開數(shù)據(jù)庫(kù)上的大量實(shí)驗(yàn)表明,與當(dāng)前最優(yōu)方法相比,LAP可以重建更好的或有競(jìng)爭(zhēng)力的人臉幾何和紋理。
03
在圖像到圖像翻譯上實(shí)現(xiàn)層次風(fēng)格解耦
Image-to-image Translation via Hierarchical Style Disentanglement
本論文已被CVPR2021接收為Oral論文。近年來(lái),圖像到圖像翻譯在實(shí)現(xiàn)多標(biāo)簽(以不同標(biāo)簽作為條件)和多風(fēng)格(生成多種樣式的輸出)任務(wù)中都取得了重大進(jìn)展。但是,由于未開發(fā)標(biāo)簽中的獨(dú)立性和排他性導(dǎo)致的翻譯結(jié)果不可控導(dǎo)致了這些方法的失敗。在本文中,我們提出了層次風(fēng)格解耦(HiSD)來(lái)解決此問(wèn)題。具體來(lái)說(shuō),將標(biāo)簽重新排列成分層的樹狀結(jié)構(gòu),從上到下依次是獨(dú)立的標(biāo)簽,互斥的屬性和解耦的風(fēng)格。相應(yīng)地,我們?cè)O(shè)計(jì)了一種新的翻譯過(guò)程來(lái)適應(yīng)上述結(jié)構(gòu),將風(fēng)格與特定標(biāo)簽或?qū)傩詫?duì)應(yīng)起來(lái),實(shí)現(xiàn)可控的翻譯。CelebA-HQ數(shù)據(jù)集上的定性和定量結(jié)果都證明了HiSD的能力。我們希望我們的方法將作為層次風(fēng)格解耦的基準(zhǔn),幫助未來(lái)的圖像到圖像翻譯的研究。
04
基于特征校準(zhǔn)的表征批規(guī)范化方法
Representative Batch Normalization with Feature Calibration
本論文已被CVPR2021接收為Oral論文。批規(guī)范(BatchNorm,簡(jiǎn)稱BN)已經(jīng)被視為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的默認(rèn)組件之一,盡管BN是有益于穩(wěn)定模型訓(xùn)練以及模型的整體表征能力,但是也不可避免地忽視了訓(xùn)練數(shù)據(jù)個(gè)體之間的特征差異。我們提出了一個(gè)簡(jiǎn)單有效的特征校準(zhǔn)策略用來(lái)增強(qiáng)數(shù)據(jù)個(gè)體的特征表達(dá)能力,并幾乎不增加額外的耗時(shí)。我們提出的這個(gè)中心校準(zhǔn)方法可以增強(qiáng)有效的特征信息,而減少噪聲特征。縮放校準(zhǔn)方面,則能夠通過(guò)約束特征強(qiáng)度以學(xué)習(xí)得到一個(gè)更加穩(wěn)定的特征分布。我們將上述提出的BN變種方法,命名為Representative BN,這一方法能夠幫助提升多種計(jì)算機(jī)視覺(jué)任務(wù)的效果,如分類、檢測(cè)和分割等。
05
基于對(duì)比學(xué)習(xí)的緊湊圖像去霧方法
Contrastive Learning for Compact Single Image Dehazing
本文提出了一種基于對(duì)比學(xué)習(xí)的新穎對(duì)比正則化(CR)技術(shù),以利用模糊圖像和清晰圖像的信息分別作為負(fù)樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠(yuǎn)離朦朧圖像的位置。
此外,考慮到性能和內(nèi)存存儲(chǔ)之間的權(quán)衡,開發(fā)了一個(gè)基于類自動(dòng)編碼器(AE)框架的緊湊型除霧網(wǎng)絡(luò),可分別受益于自適應(yīng)地保存信息流和擴(kuò)展接收域以提高網(wǎng)絡(luò)的轉(zhuǎn)換能力。將具有自動(dòng)編碼器和對(duì)比正則化功能的除霧網(wǎng)絡(luò)稱為AECR-Net,在合成和真實(shí)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,我們的AECR-Net超越了最新技術(shù)。
06
基于相似度分布距離的無(wú)監(jiān)督人臉質(zhì)量評(píng)估
SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance
近年來(lái)為了確保非受限場(chǎng)景的穩(wěn)定性和可靠性,人臉質(zhì)量評(píng)估(Face Image Quality Assessment, FIQA)已經(jīng)成為人臉識(shí)別系統(tǒng)不可或缺的一部分。這種方式只使用了類內(nèi)信息,而忽略了類間信息。在本工作中,我們認(rèn)為高質(zhì)量的人臉應(yīng)該與其類內(nèi)樣本相似并與其他樣本不相似,因此提出了一種新的無(wú)監(jiān)督FIQA方法,該方法結(jié)合了相似分布距離進(jìn)行人臉圖像質(zhì)量評(píng)估(SDD-FIQA)。我們通過(guò)計(jì)算正負(fù)樣本相似度分布間的Wasserstein距離生成高質(zhì)量的偽標(biāo)簽,并以此訓(xùn)練用于質(zhì)量預(yù)測(cè)的回歸網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,我們提出的SDD-FIQA顯著超過(guò)了SOTA方法。同時(shí),我們的方法在不同的識(shí)別系統(tǒng)上顯示出良好的泛化性。后續(xù)我們將開源該工作。
07
基于實(shí)例誤報(bào)一致性的人臉識(shí)別公平性提升方法
Consistent Instance False Positive Improves Fairness in Face Recognition
人群偏差是實(shí)際人臉識(shí)別系統(tǒng)中的重大挑戰(zhàn)?,F(xiàn)有方法嚴(yán)重依賴準(zhǔn)確的人群標(biāo)簽,還不夠通用。于是,我們提出了基于誤報(bào)率懲罰的損失函數(shù),它通過(guò)增加實(shí)例誤報(bào)率(FPR)的一致性來(lái)減輕人臉識(shí)別偏差。具體來(lái)說(shuō),我們首先將實(shí)例FPR定義為高于統(tǒng)一閾值的非目標(biāo)相似度數(shù)量與非目標(biāo)相似度總數(shù)之間的比率。通過(guò)給定總FPR,可以估計(jì)出統(tǒng)一閾值,然后將實(shí)例FPR與總FPR的比例懲罰項(xiàng)引入基于softmax的損失函數(shù)分母中。實(shí)例FPR越大,懲罰越大。利用這種不平等性的懲罰,使得實(shí)例FPR具有一致性。該方法不需要人群標(biāo)簽,并可減輕群體之間因各種屬性劃分的偏差,而這些屬性在訓(xùn)練中無(wú)需預(yù)先定義,在主流實(shí)驗(yàn)基準(zhǔn)上的廣泛測(cè)試結(jié)果表明,此方法已達(dá)到了SOTA。
08
基于高效訓(xùn)練替代模型的黑盒攻擊方法
Delving into Data: Effectively Substitute Training for Black-box Attack
在處理對(duì)抗樣本時(shí),深度神經(jīng)網(wǎng)絡(luò)顯得非常敏感,容易輸出錯(cuò)誤的預(yù)測(cè)結(jié)果。而在黑盒攻擊中,攻擊者并不知道被攻擊目標(biāo)模型的內(nèi)部結(jié)構(gòu)和權(quán)重,因此訓(xùn)練一個(gè)替代模型去模擬目標(biāo)模型內(nèi)部結(jié)構(gòu)就是一種非常高效的方法。
在本文,我們提出了一個(gè)全新的替代模型訓(xùn)練方法,即在替代模型訓(xùn)練過(guò)程中引入更好的數(shù)據(jù)分布。首先是提出的多樣性,更加多樣性的訓(xùn)練數(shù)據(jù)分布可以獲取更加豐富的特征表述;其次,提出一個(gè)對(duì)抗替換模型訓(xùn)練框架,將分布在分界面的對(duì)抗樣本引入到替代模型訓(xùn)練過(guò)程中。通過(guò)結(jié)合兩種思路,可以進(jìn)一步提升替代模型和目標(biāo)模型之間的相似性,從而提升黑盒攻擊的成功率。實(shí)驗(yàn)結(jié)果表明,我們的方法達(dá)到了SOTA,相關(guān)的可視化結(jié)果也證明了所提出方法的優(yōu)勢(shì)。
09
學(xué)習(xí)復(fù)原有霧視頻:一種新的真實(shí)數(shù)據(jù)集及算法
Learning to Restore Hazy Video: A New Real-World Dataset and A New Method
現(xiàn)有的深度學(xué)習(xí)去霧方法多采用單幀去霧數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)測(cè),從而使得去霧網(wǎng)絡(luò)只能利用當(dāng)前有霧圖像的信息恢復(fù)清晰圖像。另外一方面,理想中的視頻去霧算法卻可以使用相鄰的有霧幀來(lái)獲取更多的時(shí)空冗余信息,從而得到更好的去霧效果,但由于視頻去霧數(shù)據(jù)集的缺失,視頻去霧算法鮮有研究。
為了實(shí)現(xiàn)視頻去霧算法的監(jiān)督訓(xùn)練,我們首次提出了一組真實(shí)的視頻去霧數(shù)據(jù)集(REVIDE)。使用精心設(shè)計(jì)的視頻采集系統(tǒng),成功地在同一場(chǎng)景進(jìn)行兩次采集,從而同時(shí)記錄下真實(shí)世界中成對(duì)且完美對(duì)齊的有霧和無(wú)霧視頻??紤]到獲取有霧視頻幀間時(shí)空冗余信息的挑戰(zhàn)性,我們還設(shè)計(jì)了一個(gè)由置信度引導(dǎo)的改進(jìn)型可變形卷積網(wǎng)絡(luò)(CG-IDN)來(lái)處理有霧視頻。實(shí)驗(yàn)證明,REVIDE數(shù)據(jù)集中采集的有霧場(chǎng)景遠(yuǎn)比合成霧更為貼近真實(shí)場(chǎng)景,并且我們提出的方法也優(yōu)于現(xiàn)有的各種去霧算法。
10
基于顯著邊界特征學(xué)習(xí)的無(wú)錨框時(shí)序動(dòng)作定位
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization
時(shí)序動(dòng)作定位在視頻理解中仍然是一個(gè)備受挑戰(zhàn)的任務(wù)。該任務(wù)的目的是在一個(gè)未剪輯且較長(zhǎng)的視頻中找到每個(gè)動(dòng)作的起始與結(jié)束時(shí)間,以及改動(dòng)作的分類結(jié)果。和預(yù)設(shè)錨框或者枚舉分?jǐn)?shù)的方式對(duì)比,無(wú)錨框的方法無(wú)需依賴一些冗余的超參數(shù),顯得更輕量。
因此,我們提出了第一個(gè)高效高性能且完全無(wú)錨框的時(shí)序動(dòng)作定位方法。模型包括:(1)端到端可訓(xùn)練的基礎(chǔ)預(yù)測(cè)器;(2)基于顯著性優(yōu)化的模塊,該模塊通過(guò)一種新穎的邊界池化方法去為每個(gè)時(shí)序動(dòng)作提名獲取更有價(jià)值的邊界特征;(3)使用邊界一致性約束來(lái)保證我們的模型能夠找到精準(zhǔn)的邊界信息。另外,在THUMOS14數(shù)據(jù)集上,該方法相比于之前基于錨框或運(yùn)動(dòng)分?jǐn)?shù)指導(dǎo)的方法在性能上有顯著的提升,在ActivityNet v1.3數(shù)據(jù)集上也取得了最好的結(jié)果。
11
通過(guò)添加背景來(lái)去除背景影響:背景魯棒的自監(jiān)督視頻表征學(xué)習(xí)
Removing the Background by Adding the Background: Towards a Background Robust Self-supervised Video Representation Learning
自監(jiān)督學(xué)習(xí)通過(guò)從數(shù)據(jù)本身來(lái)獲取監(jiān)督信號(hào),在視頻表征學(xué)習(xí)領(lǐng)域展現(xiàn)出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對(duì)背景信息的依賴,我們提出通過(guò)添加背景來(lái)去除背景影響。具體而言,給定一個(gè)視頻,我們從中隨機(jī)選擇一個(gè)靜態(tài)幀,并將其添加到其它的每一幀中,以構(gòu)建一個(gè)分散注意力的視頻樣本,然后要求模型拉近分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關(guān)注運(yùn)動(dòng)變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數(shù)SOTA方法中。BE在MoCo的基礎(chǔ)上,對(duì)具有嚴(yán)重背景偏見(jiàn)的數(shù)據(jù)集UCF101和HMDB51,分別帶來(lái)了16.4%和19.1%的提升,而對(duì)具有較小背景偏見(jiàn)的數(shù)據(jù)集Diving48數(shù)據(jù)集帶來(lái)了14.5%的提升。
12
基于自監(jiān)督三維重建和重投影的紋理不敏感行人重識(shí)別
Self-supervised 3D Reconstruction and Re-Projection for Texture Insensitive Person Re-identification
眾所周知,行人重識(shí)別(Person ReID)高度依賴于服裝紋理等視覺(jué)信息。但是,實(shí)際應(yīng)用中存在多種紋理混淆的情況,這超出了大多數(shù)現(xiàn)有ReID方法的能力范圍。因此,我們提出利用人的三維形狀和身材信息來(lái)提高ReID對(duì)紋理混淆的魯棒性,而不僅依賴于圖像紋理信息?,F(xiàn)有的person ReID使用的形狀學(xué)習(xí)模型要么忽略了人的真實(shí)三維信息,要么需要額外的物理設(shè)備來(lái)采集三維源數(shù)據(jù)。在本文中,我們提出了一種新穎的學(xué)習(xí)框架,即結(jié)合三維形狀學(xué)習(xí)(3DSL)模型:加入三維人體重建作為正則化,直接從二維圖像中提取紋理不敏感的3D模型編碼信息?;谡齽t化的三維重建迫使ReID模型將三維形狀信息從視覺(jué)紋理中解耦,獲得具有判別性的三維形狀ReID特征。為了解決缺乏三維ground truth的問(wèn)題,我們提出了一種對(duì)抗式自我監(jiān)督投影(ASSP)方法以擬合不需要ground truth監(jiān)督訓(xùn)練的三維重建模塊。在通用ReID數(shù)據(jù)集和紋理混淆數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了我們模型的有效性。
13
基于結(jié)構(gòu)信息保持的弱監(jiān)督目標(biāo)定位
Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization
由于僅使用分類任務(wù)對(duì)目標(biāo)進(jìn)行定位的不足,弱監(jiān)督目標(biāo)定位(WSOL)仍然存在一些挑戰(zhàn)。已有的工作通常利用空間正則化策略提高目標(biāo)定位精度,但往往忽略了如何從訓(xùn)練好的分類網(wǎng)絡(luò)中提取目標(biāo)結(jié)構(gòu)信息。
本文提出了一種兩階段的方法,稱為結(jié)構(gòu)保持激活(SPA),以充分利用WSOL卷積特征中包含的結(jié)構(gòu)信息。在第一階段,設(shè)計(jì)了受限激活模塊(RAM)來(lái)緩解由分類網(wǎng)絡(luò)引起的結(jié)構(gòu)缺失問(wèn)題。該模塊基于觀察:無(wú)約束的分類激活圖和全局平均池化層導(dǎo)致網(wǎng)絡(luò)僅關(guān)注目標(biāo)的局部區(qū)域。在第二階段,提出了一種稱為自相關(guān)圖生成(SCG)模塊的后處理方法,基于第一階段獲取的激活圖獲得結(jié)構(gòu)保持的定位圖。具體地,我們利用高階自相關(guān)(HSC)提取保留在模型中的固有結(jié)構(gòu)信息,之后聚合多個(gè)位置的HSC得到精確的目標(biāo)定位結(jié)果。在包括CUB-200-2011和ILSVRC在內(nèi)的兩個(gè)公開基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)表明,與基準(zhǔn)方法相比,本文提出的SPA方法取得了顯著的性能提升。
14
RSTNet:基于可區(qū)分視覺(jué)詞和非視覺(jué)詞的自適應(yīng)注意力機(jī)制的圖像描述生成模型
RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words
本文提出了一個(gè)視覺(jué)信息增強(qiáng)和多模態(tài)信息敏感的Transformer結(jié)構(gòu),利用網(wǎng)格與網(wǎng)格之間相對(duì)位置的幾何關(guān)系解決了特征展平操作造成的空間信息損失的問(wèn)題,并且利用一個(gè)額外的注意力層度量視覺(jué)特征與語(yǔ)義特征的貢獻(xiàn),從而充分引導(dǎo)圖像描述中視覺(jué)詞和非視覺(jué)詞的生成,在該任務(wù)的線上線下公開數(shù)據(jù)集上均證明了此模型的優(yōu)勢(shì)。
15
聯(lián)合物體和物質(zhì)挖掘的弱監(jiān)督全景分割
Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation
全景分割旨在將圖像分別分割為物體類別的目標(biāo)實(shí)例和物質(zhì)類別的語(yǔ)義內(nèi)容。這種復(fù)雜的全場(chǎng)景解析任務(wù)需要昂貴的實(shí)例級(jí)和像素級(jí)注釋來(lái)進(jìn)行模型訓(xùn)練。迄今為止,僅用圖像級(jí)標(biāo)簽學(xué)習(xí)的基于弱監(jiān)督學(xué)習(xí)的全景分割(WSPS)仍未被探索。
本文為弱監(jiān)督全景分割提出了一個(gè)有效的聯(lián)合物體與物質(zhì)挖掘(Jointly Thing-and-Stuff Mining, JTSM)框架,明確地推理了目標(biāo)前景和物質(zhì)背景之間的語(yǔ)義和共現(xiàn)關(guān)系。為此,算法設(shè)計(jì)了一種新穎的感興趣掩模池化(Mask of Interest Pooling, MoIPool),用于提取任意形狀分割的固定尺寸的像素精確特征圖。MoIPool使全景挖掘分支能夠利用多實(shí)例學(xué)習(xí)(Multiple Instance Learning, MIL),并以統(tǒng)一的方式識(shí)別物體和物質(zhì)。算法引入并行實(shí)例和語(yǔ)義分割分支,通過(guò)自訓(xùn)練進(jìn)一步修正的分割掩模,其讓從全景挖掘中挖掘的掩模和以自底向上的目標(biāo)線索協(xié)作生成偽真實(shí)標(biāo)簽,以提高空間一致性和輪廓定位。
16
基于Transformers從序列到序列的角度重新思考語(yǔ)義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語(yǔ)義分割方法提供另一種思路,將語(yǔ)義分割轉(zhuǎn)變?yōu)樾蛄械叫蛄械念A(yù)測(cè)任務(wù)。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進(jìn)行了全局的上下文建模,結(jié)合常規(guī)的Decoder模塊,我們得到了一個(gè)強(qiáng)大的語(yǔ)義分割模型,稱之為Segmentation transformer(SETR)。大量實(shí)驗(yàn)表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達(dá)到SOTA,并在Cityscapes上取得了較好結(jié)果。
17
通過(guò)元卷積核實(shí)現(xiàn)基于動(dòng)態(tài)對(duì)齊的小樣本學(xué)習(xí)
Learning Dynamic Alignment via Meta-filter for Few-shot Learning
小樣本學(xué)習(xí)(FSL)旨在通過(guò)利用極為有限的支持集樣本來(lái)適應(yīng)所學(xué)知識(shí),從而識(shí)別新的樣本,是計(jì)算機(jī)視覺(jué)中的一個(gè)重要開放問(wèn)題。小樣本學(xué)習(xí)中用于特征對(duì)齊的大多數(shù)現(xiàn)有方法僅考慮圖像級(jí)或空間級(jí)對(duì)齊,而忽略了通道差異。
在本文,我們提出了一種動(dòng)態(tài)對(duì)齊方式,可根據(jù)不同的本地支持信息有效地突出顯示查詢區(qū)域和渠道。具體而言,這是通過(guò)首先動(dòng)態(tài)采樣以輸入的少量鏡頭為條件的特征位置的鄰域來(lái)實(shí)現(xiàn)的,基于此,我們可以進(jìn)一步預(yù)測(cè)依賴于位置和依賴于通道的動(dòng)態(tài)元濾波器用于將查詢功能與特定于位置和特定于通道的知識(shí)對(duì)齊。此外,我們采用神經(jīng)網(wǎng)絡(luò)常微分方程(Neural ODE)來(lái)實(shí)現(xiàn)更精確的對(duì)齊控制。通過(guò)上述方法,我們的模型能夠更好地捕獲支持集樣本的的細(xì)粒度上下文語(yǔ)義。
18
基于時(shí)空特征可控插值的視頻超分辨率網(wǎng)絡(luò)
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution
在本文,我們提出了一種稱之為TMNet的時(shí)間建模網(wǎng)絡(luò),該模型能夠?qū)σ曨l中間幀任意插值高分辨率幀。具體而言,我們提出了TMB模塊用以調(diào)節(jié)可變形卷積作用在可控特征插值中。為了更好的挖掘時(shí)間信息,我們還提出了一個(gè)基于局部特征比對(duì)的LFC模塊,該模塊與雙向可變形ConvLSTM模塊一同作用,用以提取視頻中的短時(shí)和長(zhǎng)時(shí)運(yùn)動(dòng)信息。在3個(gè)權(quán)威標(biāo)準(zhǔn)數(shù)據(jù)集上我們提出的方法都比過(guò)去STVSR方法在效率和效果上都要更加好,文中的消融實(shí)驗(yàn)比對(duì)進(jìn)一步驗(yàn)證了我們創(chuàng)新點(diǎn)的貢獻(xiàn)。
19
從全局到局部:面向視頻動(dòng)作分割的高效網(wǎng)絡(luò)結(jié)構(gòu)搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過(guò)高效地搜索不同感受野的之間的組合來(lái)替代手工設(shè)計(jì)的模式呢?”的問(wèn)題,在本文中,我們提出一種基于從全局到局部的搜索策略來(lái)尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優(yōu)勢(shì)來(lái)找到粗粒度的參數(shù)組合,而后在利用局部搜索來(lái)精細(xì)化感受野的組合模式。值得指出的是,全局搜索并非是通過(guò)手工設(shè)計(jì)模式來(lái)尋找潛在的粗粒度參數(shù)組合。在全局搜索的基礎(chǔ)上,我們將會(huì)使用一種基于期望引導(dǎo)迭代的方式來(lái)有效地精修參數(shù)組合。最后,我們的這一結(jié)果可以即插即用地使用在當(dāng)前動(dòng)作分割的模型中,并取得了SOTA的效果。很快我們也將開源我們的代碼實(shí)現(xiàn)。
20
基于特征間高階關(guān)系挖掘的細(xì)粒度識(shí)別方法
Graph-based High-Order Relation Discovery for Fine-grained Recognition
細(xì)粒度識(shí)別的主要目的是通過(guò)學(xué)習(xí)類別間區(qū)分性特征表達(dá)來(lái)分辨表觀高度相似對(duì)象,但一般情況下,現(xiàn)有的大多數(shù)工作在背景復(fù)雜下效果不穩(wěn)定,且忽略了不同語(yǔ)義特征之間的內(nèi)在聯(lián)系。對(duì)此,我們提出一種高效的基于圖的關(guān)系挖掘方法來(lái)構(gòu)建高階關(guān)系間的上下文理解。該方法首先通過(guò)特征間語(yǔ)義和位置感知來(lái)構(gòu)建高維特征庫(kù)(feature bank),同時(shí)進(jìn)行正則化約束。其次本文提出一種基于圖的語(yǔ)義分組方法(graph grouping),將高維特征映射到低維空間中,保留其中高區(qū)分性特征。在訓(xùn)練過(guò)程中,本文還提出一種分組學(xué)習(xí)策略(group-wise learning),對(duì)特征聚類中心進(jìn)行約束。通過(guò)以上三個(gè)模塊的協(xié)作,該方法可學(xué)習(xí)到細(xì)粒度類別間更豐富的區(qū)分性信息。實(shí)驗(yàn)結(jié)果表明,該方法在4個(gè)細(xì)粒度數(shù)據(jù)集上均超過(guò)SOTA。
CVPR作為計(jì)算機(jī)視覺(jué)領(lǐng)域的頂會(huì)之一,每年錄取的論文幾乎都代表了本年度計(jì)算機(jī)視覺(jué)領(lǐng)域最新、最高科研水平以及未來(lái)發(fā)展趨勢(shì)。
此次入選了20篇論文,也是對(duì)騰訊優(yōu)圖實(shí)驗(yàn)室現(xiàn)階段科研及創(chuàng)新能力的一種認(rèn)可。未來(lái),優(yōu)圖將繼續(xù)努力,為大家?guī)?lái)更多可能的“視”界。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: