機(jī)器之心專欄
機(jī)器之心編輯部
視頻目標(biāo)分割 (Video Object Segmentation, VOS) 的現(xiàn)有 SOTA 方法在已有數(shù)據(jù)集上已經(jīng)取得 90+% J&F 的優(yōu)異性能,似乎已經(jīng)很好地解決了這一研究問(wèn)題。那么現(xiàn)有方法在更復(fù)雜場(chǎng)景中的處理能力如何呢?
(相關(guān)資料圖)
為了探究這個(gè)問(wèn)題,來(lái)自南洋理工大學(xué)、浙江大學(xué)、牛津大學(xué)、和字節(jié)跳動(dòng)的研究者們構(gòu)建了一個(gè)專門針對(duì)復(fù)雜場(chǎng)景的大規(guī)模視頻目標(biāo)分割數(shù)據(jù)集 coMplex video Object SEgmentation (MOSE)。
論文地址:https://arxiv.org/abs/2302.01872
項(xiàng)目主頁(yè):https://henghuiding.github.io/MOSE?
視頻目標(biāo)分割 (Video Object Segmentation, VOS) 是計(jì)算機(jī)視覺(jué)中的一個(gè)熱點(diǎn)問(wèn)題。在一段視頻中,給定目標(biāo)物體在視頻第一幀中某些線索 (如 mask, bounding box, 或者 scribble 等形式),VOS 旨在準(zhǔn)確地分割和追蹤該目標(biāo)物體,獲取該物體在整個(gè)視頻序列中每一幀的高質(zhì)量 mask。與現(xiàn)有的 VOS 數(shù)據(jù)集相比,MOSE 最主要的特點(diǎn)是在大量復(fù)雜場(chǎng)景中包含了擁擠的目標(biāo)群、各式各樣的遮擋、消失并重現(xiàn)的物體、以及不明顯的小物體等富有挑戰(zhàn)的情景。因此,MOSE 可以很好地衡量 VOS 算法在復(fù)雜場(chǎng)景下的視頻目標(biāo)分割性能,并推動(dòng) VOS 在更真實(shí)場(chǎng)景下的應(yīng)用研究。
在 MOSE 數(shù)據(jù)集上,研究者們?cè)?4 種不同設(shè)置下對(duì) 18 種視頻目標(biāo)分割方法進(jìn)行了廣泛實(shí)驗(yàn),包括 6 種使用 mask 的半監(jiān)督 (semi-supervised) 方法、2 種使用 bounding box 的半監(jiān)督方法、3 種多目標(biāo)無(wú)監(jiān)督 (unsupervised) 方法、和 7 種交互式視頻分割方法。實(shí)驗(yàn)表明,現(xiàn)有方法尚不能在復(fù)雜場(chǎng)景下取得令人滿意的結(jié)果。如在最熱點(diǎn)的 semi-supervised VOS 任務(wù)中,現(xiàn)有方法的 VOS 性能從 DAVIS 和 YouTube-VOS 上的 80%~90% J&F 下降到僅 40%~50% J&F。這些實(shí)驗(yàn)表明,盡管當(dāng)前方法在現(xiàn)有數(shù)據(jù)集上取得了優(yōu)異的性能,但在復(fù)雜場(chǎng)景下的視頻目標(biāo)分割仍存在很多未解決的挑戰(zhàn),未來(lái)需要更多工作來(lái)研究和探索這些挑戰(zhàn)。
MOSE 數(shù)據(jù)集簡(jiǎn)介
MOSE 包含共 2149 個(gè),總時(shí)長(zhǎng)達(dá) 443 分鐘的視頻,包含有 36 個(gè)類別的 5200 個(gè)物體。標(biāo)注的 mask 數(shù)總計(jì)達(dá) 431,725 個(gè)。從下表中可以看出,MOSE 在標(biāo)注規(guī)模和總時(shí)長(zhǎng)上明顯相較于其他數(shù)據(jù)集更大。
不僅在規(guī)模上,MOSE 在難度上也尤為突出。從表中的消失率 (Disapp. Rate) 一列來(lái)看,MOSE 中有 28.8% 的物體在至少一幀中完全消失,非??简?yàn)?zāi)P蛯?duì)物體的再跟蹤能力。同時(shí),從反映物體遮擋強(qiáng)度的 mBOR 指標(biāo)來(lái)看,MOSE 視頻的遮擋現(xiàn)象相較于其他 VOS 數(shù)據(jù)集也更加顯著。
此外,在保證目標(biāo)物體的多樣性和復(fù)雜性的同時(shí),MOSE 也豐富了視頻長(zhǎng)度的多樣性。數(shù)據(jù)集中包含了短至 5 秒的短視頻和長(zhǎng)至 1 分鐘的長(zhǎng)視頻。在保證標(biāo)注幀率最低為 5fps 的基礎(chǔ)上,數(shù)據(jù)集中還包含了很多高達(dá) 30fps 的完全標(biāo)注視頻,這考驗(yàn)?zāi)P驮谧粉櫵俣确矫娴姆€(wěn)定性,也進(jìn)一步提高了 MOSE 數(shù)據(jù)集的難度。
可視化
MOSE 數(shù)據(jù)集中包括大量的擁擠、消失、遮擋和非顯著 / 小物體等復(fù)雜場(chǎng)景。下面介紹一些數(shù)據(jù)集中的典型視頻。
如下視頻展示了一個(gè)非常擁擠復(fù)雜但貼近現(xiàn)實(shí)的球賽場(chǎng)景。紅色球員首先以背對(duì)鏡頭的狀態(tài)被其他球員所遮擋,之后在轉(zhuǎn)身后以面向鏡頭的狀態(tài)重新出現(xiàn),與藍(lán)色球員相互遮擋,這種被遮擋前和重新出現(xiàn)后的巨大差別極大地增加了視頻的難度。
下面的視頻片段中同時(shí)包含了面積較大的物體(汽車)和面積較小的物體(行人)。對(duì)于行人來(lái)說(shuō),汽車在行駛過(guò)程中幾乎將兩個(gè)行人完全遮擋。而大型物體(汽車)首先被環(huán)境(樹(shù)木)所遮擋,而后遮擋位于畫面后方的較小物體(行人)。
如下視頻展示了七只山羊大步往前跑,相互之間外觀高度相似且彼此遮擋,極大增加了視頻目標(biāo)分割的難度。且 mask 標(biāo)注質(zhì)量很高,對(duì)動(dòng)物的尾巴和羊角等細(xì)節(jié)都進(jìn)行了精細(xì)的標(biāo)注。
實(shí)驗(yàn)
以給定第一幀 mask 的半監(jiān)督 (semi-supervised) 任務(wù)為例,研究者在 MOSE 上嘗試了 6 種現(xiàn)有的開(kāi)源的 VOS 算法,結(jié)果如下表所示??梢钥吹?MOSE 非常具有挑戰(zhàn)性。在之前的數(shù)據(jù)集 DAVIS 和 Youtube-VOS 上,各方法均取得了 80% J&F 以上的好成績(jī),近乎飽和。然而,在新的 MOSE 數(shù)據(jù)集上,各方法的性能卻并不盡人意。如目前最優(yōu)的方法 DeAOT 在 DAVIS 2017 上的成績(jī)?yōu)?85.2% J&F,但在 MOSE 上卻只有 59.4% J&F。實(shí)驗(yàn)結(jié)果表明,盡管很多方法已經(jīng)在之前的基準(zhǔn)測(cè)試中取得了出色的 VOS 性能,但在復(fù)雜場(chǎng)景下仍存在未解決的挑戰(zhàn),未來(lái)需要更多努力來(lái)探索這些挑戰(zhàn)。
研究者基于 VOS 其他子任務(wù):無(wú)監(jiān)督視頻目標(biāo)分割 (Unsupervised Video Object Segmentation) 以及交互式視頻目標(biāo)分割 (Interactive Video Object Segmentation) 也進(jìn)行了實(shí)驗(yàn),更多實(shí)驗(yàn)結(jié)果請(qǐng)見(jiàn)論文。
總結(jié)
研究者構(gòu)建了一個(gè)名為 MOSE 的大規(guī)模復(fù)雜場(chǎng)景視頻目標(biāo)分割數(shù)據(jù)集,以推動(dòng) VOS 在更真實(shí)復(fù)雜場(chǎng)景下的應(yīng)用研究?;谔岢龅?MOSE 數(shù)據(jù)集,作者對(duì)現(xiàn)有 VOS 方法進(jìn)行了基準(zhǔn)測(cè)試并進(jìn)行了全面比較。發(fā)現(xiàn)在擁擠、消失、遮擋、以及非顯著 / 小物體等復(fù)雜場(chǎng)景頻繁出現(xiàn)時(shí),會(huì)給現(xiàn)有算法帶來(lái)了巨大挑戰(zhàn),期待 MOSE 能夠啟發(fā)更多研究人員進(jìn)行復(fù)雜場(chǎng)景下的視頻目標(biāo)理解的研究。
更多細(xì)節(jié)請(qǐng)參考論文原文。
關(guān)鍵詞: 為復(fù)雜場(chǎng)景而生 NTU、字節(jié)等開(kāi)源大型視頻目標(biāo)分割數(shù)據(jù)集MOSE