【公開數(shù)據(jù)集】Conceptual 12M圖像文本對數(shù)據(jù)集

發(fā)布時間:2022-03-07 05:31:07  |  來源:騰訊網(wǎng)  

Conceptual 12Mimage-text pairs datasets

Conceptual 12M圖像文本對數(shù)據(jù)集

導(dǎo)讀

大規(guī)模圖像字幕和視覺問答數(shù)據(jù)集的可用性對最近在視覺和語言預(yù)訓(xùn)練方面的成功做出了重大貢獻。然而,這些數(shù)據(jù)集的收集通常具有從其原始目標任務(wù)(例如,圖像標題生成)繼承的過度限制要求,這限制了結(jié)果數(shù)據(jù)集的規(guī)模和多樣性。

團隊通過放寬概念字幕 3M (CC3M) [Sharma et al. 2018] 并介紹概念 12M (CC12M),這是一個包含 1200 萬個圖像-文本對的數(shù)據(jù)集,專門用于視覺和語言預(yù)訓(xùn)練。團隊對該數(shù)據(jù)集進行分析,并在多個下游任務(wù)上對 CC3M 的有效性進行基準測試,重點是長尾視覺識別。團隊的研究結(jié)果清楚地說明了擴大視覺和語言任務(wù)的預(yù)訓(xùn)練數(shù)據(jù)的好處,正如 nocaps 和概念字幕基準的最新最新結(jié)果所示。

關(guān)鍵詞: 公開數(shù)據(jù)集Conceptual 12M圖像文本對數(shù)據(jù)集

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com