論文回顧:U2-Net,由U-Net組成的U-Net

發(fā)布時(shí)間:2022-02-23 05:57:09  |  來源:騰訊網(wǎng)  

分割給定圖像中的不同對(duì)象一直是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)非常重要的任務(wù)。多年來,我們已經(jīng)看到像 Deeplab 這樣的自編碼器模型被用于語義分割。在所有分割模型中,仍然有一個(gè)名字居于首位那就是U-Net。U-Net 于 2018 年發(fā)布,從那時(shí)起它獲得了巨大的普及,并以某種形式用于與分割相關(guān)的幾個(gè)不同任務(wù)。在這篇文章中,我們將介紹2020年發(fā)布的一種稱為 U -Net 或 U-squared Net 的 U-net 變體。U -Net基本上是由U-Net組成的U-Net。

U -Net 是為顯著性對(duì)象檢測或 SOD 而設(shè)計(jì)的。對(duì)于那些不知道的人來說,顯著性對(duì)象檢測基本上是檢測給定圖像中最重要或主要的對(duì)象。

U2 -Net 的架構(gòu)是一個(gè)兩級(jí)嵌套的 U 結(jié)構(gòu)。該設(shè)計(jì)具有以下優(yōu)點(diǎn):

提出殘差 U 塊 (RSU) 中混合了不同大小的感受野,它能夠從不同的尺度捕獲更多的上下文信息。

這些 RSU 塊中使用了池化操作,它增加了整個(gè)架構(gòu)的深度,而不會(huì)顯著增加計(jì)算成本。

Residual U-Block:局部和全局上下文信息對(duì)于對(duì)象檢測和其他分割任務(wù)都非常重要。為了降低內(nèi)存和計(jì)算量,VGG16、ResNet 或 DenseNet 等網(wǎng)絡(luò)使用較小尺寸的卷積核(通常為 1x1 或 3x3)。在下圖中顯示了不同的網(wǎng)絡(luò)的架構(gòu)。淺層的輸出特征圖只包含局部特征,因?yàn)?1×1 或 3×3 卷積核的感受野太小,無法捕獲全局信息。為了在淺層的高分辨率特征圖中獲得更多的全局信息,最直接的想法是擴(kuò)大感受野,但這是以額外計(jì)算為代價(jià)的。

上圖(d)顯示了一個(gè)類似 Inception 的塊,它試圖通過使用擴(kuò)張(空洞)卷積擴(kuò)大感受野來提取局部和非局部特征。但是以原始分辨率對(duì)輸入特征圖(尤其是早期階段)進(jìn)行多次擴(kuò)張卷積需要過多的計(jì)算和內(nèi)存資源。RSU-L(C_in,M,C_out)受 U-Net、ReSidual Ublock 和 RSU 的啟發(fā)可以捕獲階段內(nèi)多尺度特征(上圖最右側(cè)架構(gòu))。這里L(fēng)是編碼器的層數(shù),C_in、C_out表示輸入和輸出通道,M表示RSU內(nèi)部層的通道數(shù)。

RSU主要由三個(gè)部分組成:

輸入卷積層,將輸入特征圖 x (H×W ×C_in) 轉(zhuǎn)換為通道為 C_out 的中間圖 F1(x)。這是一個(gè)用于局部特征提取的普通卷積層。

一種高度為 L 的類 U-Net 對(duì)稱編碼器-解碼器結(jié)構(gòu),以中間特征圖 F1(x) 作為輸入,學(xué)習(xí)提取和編碼多尺度上下文信息 U(F1(x))。較大的 L 會(huì)導(dǎo)致更深的殘差 U 塊 (RSU)、更多的池化操作、更大范圍的感受野以及更豐富的局部和全局特征。配置 L 可以從具有任意空間分辨率的輸入特征圖中提取多尺度特征。這個(gè)過程減輕了由大尺度直接上采樣引起的細(xì)節(jié)損失。

通過求和融合局部特征和多尺度特征的殘差連接:F1(x) +U(F1(x))。

U -Net 架構(gòu)在編碼器階段,En_1、En_2、En_3 和 En_4,分別使用殘差 U 塊 RSU-7、RSU-6、RSU-5 和 RSU-4。其中“7”、“6”、“5”和“4”表示 RSU 塊的高度 (L)。L 通常根據(jù)輸入特征圖的空間分辨率進(jìn)行配置。對(duì)于高度和寬度較大的特征圖,較大的 L 值用于捕獲更多的大規(guī)模信息。En_5 和 En_6 中特征圖的分辨率相對(duì)較低,這些特征圖的進(jìn)一步下采樣會(huì)導(dǎo)致有用上下文的丟失。因此在 En_5 和 En_6 階段,都使用了 RSU-4F,其中“F”表示 RSU 是擴(kuò)張版本并且池化和上采樣操作被擴(kuò)張卷積取代。RSU-4F 的所有中間特征圖都具有與其輸入特征圖相同的分辨率。

解碼器的結(jié)構(gòu)與其對(duì)稱編碼器的 En_6 結(jié)構(gòu)相似。De_5 還使用了與編碼器階段 En_5 和 En_6 中使用的類似的擴(kuò)張版殘差 U 塊 RSU-4F。每個(gè)解碼器階段將來自其前一階段的上采樣特征圖和來自其對(duì)稱編碼器階段的上采樣特征圖的連接作為輸入。

最后是用于生成顯著概率圖的顯著圖融合模塊。U -Net首先通過一個(gè)由3 × 3的卷積層和一個(gè)sigmoid函數(shù)組成的階段En_6、De_5、De_4、De_3、De_2和De_1生成的S(6)、S(5)、S(4)、S(3)、S(2)、S(1)輸出顯著性概率映射。然后,它對(duì)這些輸出顯著性logits (sigmoid函數(shù)之前的卷積輸出)進(jìn)行熵采樣并將其映射到輸入圖像大小,通過concat操作進(jìn)行融合,最后是1×1卷積層和sigmoid函數(shù),這樣就生成了最終的顯著性概率圖S_fuse。

以下是 U -Net 與其他模型對(duì)比的一些結(jié)果。

上圖可以看到對(duì)比其他的模型U2-Net都有不小的提升。

以上就是這篇文章的所有內(nèi)容,我們論文回顧的目標(biāo)是用一種簡單易懂的格式呈現(xiàn)原始論文,同時(shí)也給你一些關(guān)鍵的收獲。

關(guān)鍵詞: 論文回顧U2Net

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com