99久久综合狠狠综合久久,亚洲国产专区,成品网站nike源码1688免费

選自arXiv

作者：Feilong Chen等

機(jī)器之心編譯

編輯：陳萍

一文了解視覺 - 語言預(yù)訓(xùn)練最新進(jìn)展和新領(lǐng)域。

讓機(jī)器做出與人類相似的反應(yīng)一直是 AI 研究不懈追求的目標(biāo)。為了讓機(jī)器具有感知和思考的能力，研究人員進(jìn)行了一系列相關(guān)研究，如人臉識別、閱讀理解和人機(jī)對話，通過這些任務(wù)訓(xùn)練和評估機(jī)器在特定方面的智能。一般來講，領(lǐng)域?qū)＜彝ㄟ^手工構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)集，然后在這些數(shù)據(jù)集上訓(xùn)練和評估相關(guān)模型。然而，由于相關(guān)技術(shù)的限制，訓(xùn)練模型往往需要大量的標(biāo)注數(shù)據(jù)，以獲得更好、更強(qiáng)大的模型。

基于 Transformer 架構(gòu)的預(yù)訓(xùn)練模型緩解了這個問題。它們首先通過自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練，從大規(guī)模未標(biāo)記數(shù)據(jù)中訓(xùn)練模型，從而學(xué)習(xí)通用表示。它們在下游任務(wù)上僅使用少量手動標(biāo)記的數(shù)據(jù)進(jìn)行微調(diào)就能取得令人驚訝的效果。自 BERT 被應(yīng)用于 NLP 任務(wù)以來，各種預(yù)訓(xùn)練模型在單模態(tài)領(lǐng)域快速發(fā)展，例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它們有利于下游單模態(tài)任務(wù)，并避免從頭開始訓(xùn)練新模型。

與單模態(tài)領(lǐng)域類似，多模態(tài)領(lǐng)域也存在高質(zhì)量標(biāo)注數(shù)據(jù)較少的問題。我們不禁會問，上述預(yù)訓(xùn)練方法能否應(yīng)用于多模態(tài)任務(wù)？研究人員已經(jīng)對這個問題進(jìn)行了探索并取得了重大進(jìn)展。

在本文中，來自中國科學(xué)院自動化研究所、中國科學(xué)院大學(xué)的研究者調(diào)查了視覺 - 語言預(yù)訓(xùn)練（vision-language pre-training，VLP）最新進(jìn)展和新領(lǐng)域，包括圖像 - 文本預(yù)訓(xùn)練和視頻 - 文本預(yù)訓(xùn)練。VLP 通過對大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練來學(xué)習(xí)不同模態(tài)之間語義對應(yīng)關(guān)系。例如，在圖像 - 文本預(yù)訓(xùn)練中，研究者期望模型將文本中的狗與圖像中的狗外觀相關(guān)聯(lián)。在視頻 - 文本預(yù)訓(xùn)練中，研究者期望模型將文本中的對象 / 動作映射到視頻中的對象 / 動作。

論文地址：https://arxiv.org/pdf/2202.09061.pdf

為了實現(xiàn)這一目標(biāo)，研究者需要巧妙地設(shè)計 VLP 對象和模型架構(gòu)，以允許模型挖掘不同模態(tài)之間的關(guān)聯(lián)。

為了讓讀者更好地全面掌握 VLP，該研究首先從特征提取、模型架構(gòu)、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練數(shù)據(jù)集和下游任務(wù)五個方面回顧其最近進(jìn)展。然后，文章詳細(xì)總結(jié)了具體的 VLP 模型。最后，文章討論了 VLP 的新領(lǐng)域。據(jù)了解，這是對 VLP 領(lǐng)域的首次調(diào)查。研究者希望這項調(diào)查能夠為 VLP 領(lǐng)域的未來研究提供啟示。

VLP 綜述

VLP 五個方面回顧及其最近進(jìn)展

在特征處理方面：論文主要介紹了 VLP 模型如何進(jìn)行預(yù)處理和表示圖像、視頻和文本以獲得對應(yīng)特征。

為了充分利用單模態(tài)預(yù)訓(xùn)練模型，VLP 隨機(jī)初始化標(biāo)準(zhǔn) transformer 編碼器來生成視覺或文本表示。從視覺來講，VLP 利用預(yù)訓(xùn)練視覺 transformer（例如 ViT 和 DeiT）對 ViT-PF 進(jìn)行編碼。從文本來講，VLP 使用預(yù)訓(xùn)練文本 transformer（例如 BERT）對文本特征進(jìn)行編碼。為簡單起見，該研究將這些 transformer 命名為 Xformer。

在模型架構(gòu)方面：論文從兩個不同的角度介紹 VLP 模型架構(gòu)：（1）從多模態(tài)融合的角度來觀察單流與雙流架構(gòu)（2）從整體架構(gòu)設(shè)計來比較編碼器以及編碼器 - 解碼器對比。

單流架構(gòu)是指將文本和視覺特征組合在一起，然后饋入單個 transformer 塊，如下圖 1 (a) 所示。單流架構(gòu)通過合并注意力來融合多模態(tài)輸入。單流架構(gòu)的參數(shù)效率更高，因為兩種模式都使用相同的參數(shù)集。

雙流架構(gòu)是指文本和視覺特征沒有組合在一起，而是獨立饋入到兩個不同的 transformer 塊，如圖 1 (b) 所示。這兩個 transformer 塊不共享參數(shù)。為了獲得更高的性能，交叉注意力（如圖 1 (b) 中的虛線所示）用于實現(xiàn)跨模態(tài)交互。為了實現(xiàn)更高的效率，視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。

許多 VLP 模型只采用編碼器架構(gòu)，不同模態(tài)表示直接饋入輸出層。相比之下，其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構(gòu)，不同模態(tài)表示首先饋入解碼器，然后饋入輸出層。

在預(yù)訓(xùn)練目標(biāo)方面：論文通過使用不同的預(yù)訓(xùn)練目標(biāo)來預(yù)訓(xùn)練 VLP 模型，并將預(yù)訓(xùn)練目標(biāo)總結(jié)為四類：完成、匹配、時間和特定類型。

完成（completion）指的是利用未掩碼部分來重建掩碼元素。以掩碼語言建模 (MLM) 為例，其最早由 taylor 提出，由于 BERT 將其作為預(yù)訓(xùn)練任務(wù)而廣為人知。VLP 模型中的 MLM 類似于預(yù)訓(xùn)練語言模型 (PLM) 中的 MLM，它不僅可以通過其余文本 token 來預(yù)測掩碼文本 token，還可以通過視覺 token 來預(yù)測掩碼文本 token。根據(jù)經(jīng)驗，遵循 BERT 的 VLP 模型以 15% 的掩碼率隨機(jī)掩碼每個文本輸入 token，并在 80% 的時間使用特殊 token [MASK]、10% 的時間使用隨機(jī)文本 token，剩余 10% 的時間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學(xué)陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中，作者發(fā)現(xiàn)：在有效的預(yù)訓(xùn)練方案下，他們可以掩蔽 40-50% 的輸入文本，并獲得比默認(rèn)的 15% 更好的下游性能。

在掩碼視覺建模 (MVM) 中，與 MLM 一樣，MVM 對視覺（圖像或視頻）區(qū)域或 patch 進(jìn)行采樣，并且通常以 15% 的概率掩碼其視覺特征。VLP 模型需要在給定剩余的視覺特征和所有文本特征的情況下重建掩碼的視覺特征。

視覺 - 語言匹配 (VLM) 是最常用的預(yù)訓(xùn)練目標(biāo)，用于對齊視覺和語言。在單流 VLP 模型中，研究者使用特殊 token [CLS] 表示作為兩種模態(tài)的融合表示。在雙流 VLP 模型中，研究者將特殊視覺 token [CLSV] 視覺表示和特殊文本 token [CLST] 文本表示連接起來，作為兩種模態(tài)的融合表示。VLP 模型將兩種模態(tài)的融合表示提供給 FC 層和 sigmoid 函數(shù)以預(yù)測 0 到 1 之間的分?jǐn)?shù)，其中 0 表示視覺和語言不匹配，1 表示視覺和語言匹配。在訓(xùn)練期間，VLP 模型在每一步從數(shù)據(jù)集中采樣正對或負(fù)對。

在預(yù)訓(xùn)練數(shù)據(jù)集方面：大多數(shù)用于 VLP 的數(shù)據(jù)集是通過組合跨多模態(tài)任務(wù)的公共數(shù)據(jù)集構(gòu)建而成。這里，一些主流語料庫及其詳細(xì)信息如下表 1 所示。

在下游任務(wù)方面：各種各樣的任務(wù)需要視覺和語言知識融合。本小節(jié)論文介紹了此類任務(wù)的基本細(xì)節(jié)和目標(biāo)，并將其分為五類：分類、回歸、檢索、生成和其他任務(wù)，其中分類、回歸和檢索任務(wù)也稱為理解任務(wù)。

在分類任務(wù)中，其包括視覺問答 (VQA)、視覺推理和合成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識推理 (VCR) 等。在 VQA 中，提供圖像或視頻視覺輸入，它通常被認(rèn)為是一個分類任務(wù)，模型從一個選擇池中預(yù)測出最合適的答案；在 GQA 中，我們可以將 GQA 視為 VQA 的升級版，旨在推進(jìn)自然場景視覺推理的研究；在 VLI 中，給定具有對齊字幕的視頻剪輯作為前提，并與基于視頻內(nèi)容的自然語言假設(shè)配對，模型需要推斷該假設(shè)是否與給定視頻剪輯相矛盾。

在回歸任務(wù)中，多模態(tài)情感分析 (MSA) 旨在利用多模態(tài)信號（如視覺、語言等）檢測視頻中的情緒。它是作為一個連續(xù)的強(qiáng)度變量來預(yù)測話語的情感走向。

在檢索任務(wù)中，視覺 - 語言檢索 (VLR) 通過適當(dāng)?shù)钠ヅ洳呗詠砝斫庖曈X（圖像或視頻）和語言，其包括兩個子任務(wù)，視覺到文本檢索和文本到視覺檢索，其中視覺到文本檢索是根據(jù)視覺從更大的描述池中獲取最相關(guān)的文本描述，反之亦然。

在生成任務(wù)中，視覺字幕 (VC) 旨在為給定的視覺（圖像或視頻）輸入生成語義和語法上合適的文本描述。此外，論文還介紹了其他下游任務(wù)，例如多模態(tài)機(jī)器翻譯 (MMT)、視覺語言導(dǎo)航 (VLN) 和光學(xué)字符識別 (OCR) 等。

SOTA VLP 模型

圖像 - 文本 VLP 模型。VisualBERT 被稱為第一個圖像 - 文本預(yù)訓(xùn)練模型，使用 Faster R-CNN 提取視覺特征，并將視覺特征和文本嵌入連接起來，然后將連接后的特征饋送到單個由 BERT 初始化的 transformer 中。許多 VLP 模型在調(diào)整預(yù)訓(xùn)練目標(biāo)和預(yù)訓(xùn)練數(shù)據(jù)集時遵循與 VisualBERT 相似的特征提取和架構(gòu)。最近，VLMO 利用圖像 patch 嵌入和文本詞嵌入，將組合嵌入與模態(tài)專家一起輸入到單個 transformer 中，并取得了令人印象深刻的性能。METER 探索了如何使用單模態(tài)預(yù)訓(xùn)練模型，并提出一種雙流架構(gòu)模型來處理多模態(tài)融合，從而在許多下游任務(wù)上實現(xiàn)了 SOTA 性能。

視頻 - 文本 VLP 模型。VideoBERT 被稱為第一個視頻 - 文本預(yù)訓(xùn)練模型，其擴(kuò)展 BERT 模型以同時處理視頻和文本。VideoBERT 使用預(yù)訓(xùn)練的 ConvNet 和 S3D 來提取視頻特征并將它們與文本詞嵌入連接起來，并饋送到以 BERT 進(jìn)行初始化的 transformer。在訓(xùn)練 VideoBERT 時，ConvNet 和 S3D 被凍結(jié)，這表明該方法不是端到端的。最近，受 ViT 的啟發(fā)，F(xiàn)rozen 和 Region-Learner 首先將視頻剪輯處理成幀，并根據(jù) ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優(yōu)化自身并實現(xiàn) SOTA 性能。

下表 2 總結(jié)了更多現(xiàn)有的主流 VLP 模型：

未來，在現(xiàn)有工作的基礎(chǔ)上，研究者希望 VLP 可以從以下幾個方面進(jìn)一步發(fā)展：

結(jié)合聲學(xué)信息，以往的多模態(tài)預(yù)訓(xùn)練研究大多強(qiáng)調(diào)語言和視覺的聯(lián)合建模，而忽略了隱藏在音頻中的信息；

知識學(xué)習(xí)和認(rèn)知，盡管現(xiàn)有的 VLP 模型已經(jīng)取得了顯著的性能，但它們本質(zhì)上是擬合大規(guī)模多模態(tài)數(shù)據(jù)集，讓 VLP 模型更有知識對于未來的 VLP 很重要；

提示優(yōu)化，通過設(shè)計離散或連續(xù)提示并將 MLM 用于特定的下游任務(wù)，這些模型可以減少微調(diào)大量參數(shù)的計算成本，彌合預(yù)訓(xùn)練和微調(diào)之間的差距。

關(guān)鍵詞：搞多模態(tài)不了解最新進(jìn)展中科院自動化所撰文首個視覺-語