新智元報道??
編輯:桃子 Ellie
【新智元導(dǎo)讀】微軟亞研院發(fā)布了僅16億參數(shù)的多模態(tài)大型語言模型KOSMOS-1,不僅能看圖回答,還搞定了瑞文智商測試。
(資料圖片)
大模型的卷,已經(jīng)不睡覺都趕不上進度了......
這不,微軟亞研院剛剛發(fā)布了一個多模態(tài)大型語言模型(MLLM)—— KOSMOS-1。
論文地址:https://arxiv.org/pdf/2302.14045.pdf
論文題目Language Is Not All You Need,還得源于一句名言。
文中有這么一句話,「我語言的局限,就是我世界的局限?!獖W地利哲學(xué)家Ludwig Wittgenstein」
那么問題來了......
拿著圖問KOSMOS-1「是鴨還是兔」能搞明白嗎?這張有100多年歷史的梗圖硬是把谷歌AI整不會了。
1899年,美國心理學(xué)家Joseph Jastrow首次使用「鴨兔圖」來表明感知不僅是人們所看到的,而且是一種心理活動。
現(xiàn)在,KOSMOS-1便能將這種感知和語言模型相結(jié)合。
-圖中是什么?
-像一只鴨子。
-如果不是鴨子,那是什么?
-看起來更像兔子。
-為什么?
-它有兔子的耳朵。
這么一問,KOSMOS-1真有點像微軟版的ChatGPT了。
不僅如此,Kosmos-1還能理解圖像、文本、帶有文本的圖像、OCR、圖像說明、視覺QA。
甚至IQ測試也不在話下。
「宇宙」無所不能
Kosmos來源希臘一詞cosmos,有「宇宙」之意。
據(jù)論文介紹,最新Kosmos-1模型是一個多模態(tài)大型語言模型。
其主干是一個基于Transformer的因果語言模型,除了文本之外,其他模態(tài),如視覺、音頻都可以嵌入模型。
Transformer解碼器用作多模態(tài)輸入的通用接口,因此它能感知一般模態(tài),進行上下文學(xué)習(xí),并遵循指令。
Kosmos-1在語言和多模態(tài)任務(wù)上取得了令人印象深刻的表現(xiàn),無需進行微調(diào),其中包括帶有文字指示的圖像識別、視覺問答和多模態(tài)對話。
如下是Kosmos-1生成一些例子式樣。
圖片解釋、圖片問答、網(wǎng)頁問題回答,簡單數(shù)字公式,以及數(shù)字識別。
那么,Kosmos-1是在哪些數(shù)據(jù)集上進行預(yù)訓(xùn)練的呢?
訓(xùn)練所用的數(shù)據(jù)庫,包括文本語料庫、圖像-字幕對、圖像和文本交叉數(shù)據(jù)集。
文本語料庫取自The Pile和Common Crawl(CC);
圖像-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;
文本交叉數(shù)據(jù)集的來源是Common Crawl snapshot。
數(shù)據(jù)庫有了,接下來就是對模型進行預(yù)訓(xùn)練了。
MLLM組件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭,產(chǎn)生了大約1.3B的參數(shù)。
為了保證優(yōu)化的穩(wěn)定性,采用Magneto初始化;為了更快地收斂,圖像表示是從一個預(yù)先訓(xùn)練好的具有1024個特征維度的CLIP ViT-L/14模型獲取的。在訓(xùn)練過程中,圖像被預(yù)處理成224×224分辨率,CLIP模型的參數(shù)除了最后一層均被凍結(jié)。
KOSMOS-1的參數(shù)總量約為16億。
為了使KOSMOS-1更好地與指令保持一致,對其進行了只用語言的指令調(diào)整 [LHV+23, HSLS22],即用指令數(shù)據(jù)繼續(xù)訓(xùn)練模型,該指令數(shù)據(jù)是僅有的語言數(shù)據(jù),與訓(xùn)練語料庫混合。
該調(diào)優(yōu)過程是按照語言建模的方式進行的,選取的指令數(shù)據(jù)集為Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。
結(jié)果顯示,指令跟隨能力的提高可以跨模式轉(zhuǎn)移。
總之,MLLM可以從跨模態(tài)遷移中獲益,將知識從語言遷移到多模態(tài),反之亦然;
5大類10個任務(wù),都拿捏了
一個模型好不好使,拿出來溜溜就知道了。
研究團隊從多角度進行實驗來評價KOSMOS-1的性能,包括5大類十項任務(wù):
1 語言任務(wù)(語言理解、語言生成、無OCR的文本分類)
2 多模態(tài)轉(zhuǎn)移(常識推理)
3 非語言推理(IQ測試)
4 感知-語言任務(wù)(圖像說明、視覺問答、網(wǎng)頁問答)
5 視覺任務(wù)(零樣本圖像分類、帶描述的零樣本圖像分類)
無OCR的文本分類
這是一種不依賴于光學(xué)字符識別(OCR)的專注于文本和圖像的理解任務(wù)。
KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率均高于優(yōu)于其他模型。
而且Flamingo明確提供OCR文本到提示中,KOSMOS-1并沒有訪問任何外部工具或資源,這展示了KOSMOS-1閱讀和理解渲染的圖像中的文本的內(nèi)在能力。
IQ測試
瑞文智力測試是評估非語言的最常用測試之一。
KOSMOS-1在沒有進行微調(diào)時準確率比隨機選擇提高了5.3%,經(jīng)過微調(diào)后則提高了9.3%,表明其具有感知非語言環(huán)境中的抽象概念模式的能力。
這是首次有模型能夠完成零樣本Raven測試,證明了MLLMs通過將感知與語言模型結(jié)合起來進行零樣本非言語推理的潛力。
圖像說明
KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現(xiàn)優(yōu)秀,相比其他模型,其得分更高,但采用的參數(shù)量更小。
在少樣本性能測試中,得分隨著k值增大有所增加。
零樣本圖像分類
給定一個輸入圖像,并將該圖像與提示 「The photo of the」連接起來。然后,輸入模型以獲得圖像的類別名稱。
通過在ImageNet[DDS+09]上評估該模型,在有約束和無約束的條件下,KOSMOS-1的圖像歸類效果都明顯優(yōu)于GIT[WYH+22],展現(xiàn)了完成視覺任務(wù)的強大能力。
常識推理
視覺常識推理任務(wù)要求模型理解現(xiàn)實世界中日常物體的屬性,如顏色、大小和形狀,這些任務(wù)是具有挑戰(zhàn)性的,因為它們可能需要比文本中更多的關(guān)于物體屬性的信息。
結(jié)果顯示,KOSMOS-1在尺寸和顏色方面的推理能力都明顯好于LLM模型。這主要是因為KOSMOS-1具備多模態(tài)遷移能力,從而能夠?qū)⒁曈X知識運用到語言任務(wù)中,而不必像LLM那樣必須依靠文本知識和線索來推理。
對于微軟Kosmos-1,網(wǎng)友稱贊道,未來5年,我可以看到一個高級機器人瀏覽網(wǎng)絡(luò),并僅通過視覺方式基于人類的文本輸入來工作。真是有趣的時代。
參考資料:
https://arxiv.org/pdf/2302.14045.pdf
關(guān)鍵詞: 連百年梗圖都整明白了微軟多模態(tài)宇宙搞定IQ測試 僅16億參數(shù)