萬(wàn)字長(zhǎng)文!DeepMind科學(xué)家總結(jié)2021年的15個(gè)高能研究
編輯:LRS
本文由新智元進(jìn)行編譯
【導(dǎo)讀】2021年ML和NLP依然發(fā)展迅速,DeepMind科學(xué)家最近總結(jié)了過(guò)去一年的十五項(xiàng)亮點(diǎn)研究方向,快來(lái)看看哪個(gè)方向適合做你的新坑!
2021年,借助更強(qiáng)大的算力、數(shù)據(jù)和模型,機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的技術(shù)發(fā)展依然十分迅速。
最近,DeepMind科學(xué)家Sebastian Ruder總結(jié)了15個(gè)過(guò)去一年里高能、有啟發(fā)性的研究領(lǐng)域,主要包括:
Universal Models 通用模型
Massive Multi-task Learning 大規(guī)模多任務(wù)學(xué)習(xí)
Beyond the Transformer 超越Transformer的方法
Prompting 提示
Efficient Methods 高效方法
Benchmarking 基準(zhǔn)測(cè)試
Conditional Image Generation 條件性圖像生成
ML for Science 用于科學(xué)的機(jī)器學(xué)習(xí)
Program Synthesis 程序合成
Bias 偏見(jiàn)
Retrieval Augmentation 檢索增強(qiáng)
Token-free Models 無(wú)Token模型
Temporal Adaptation 時(shí)序適應(yīng)性
The Importance of Data 數(shù)據(jù)的重要性
Meta-learning 元學(xué)習(xí)
Sebastian Ruder是倫敦DeepMind的一名研究科學(xué)家。在Insight數(shù)據(jù)分析研究中心獲得自然語(yǔ)言處理和深度學(xué)習(xí)的博士學(xué)位,同時(shí)在柏林的文本分析初創(chuàng)公司AYLIEN擔(dān)任研究科學(xué)家。
1 通用模型
通用人工智能一直是AI從業(yè)者的目標(biāo),越通用的能力,代表模型更強(qiáng)大。
2021年,預(yù)訓(xùn)練模型的體積越來(lái)越大,越來(lái)越通用,之后微調(diào)一下就可以適配到各種不同的應(yīng)用場(chǎng)景。這種預(yù)訓(xùn)練-微調(diào)已經(jīng)成了機(jī)器學(xué)習(xí)研究中的新范式。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,盡管有監(jiān)督的預(yù)訓(xùn)練模型如Vision Transformer的規(guī)模逐漸擴(kuò)大,但只要數(shù)據(jù)量夠大,在自監(jiān)督情況下預(yù)訓(xùn)練模型效果已經(jīng)可以和有監(jiān)督相匹敵了。
在語(yǔ)音領(lǐng)域,一些基于wav2vec 2.0的模型,如W2v-BERT,以及更強(qiáng)大的多語(yǔ)言模型XLS-R也已經(jīng)展現(xiàn)了驚人的效果。
與此同時(shí),研究人員也發(fā)現(xiàn)了新的大一統(tǒng)預(yù)訓(xùn)練模型,能夠針對(duì)以前研究不足的模態(tài)對(duì)(modality pair)進(jìn)行改進(jìn),如視頻和語(yǔ)言,語(yǔ)音和語(yǔ)言。
在視覺(jué)和語(yǔ)言方面,通過(guò)在語(yǔ)言建模范式中設(shè)定不同的任務(wù),對(duì)照研究(controlled studies)也揭示了多模態(tài)模型的重要組成部分。這類模型在其他領(lǐng)域,如強(qiáng)化學(xué)習(xí)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也證明了其有效性。
鑒于在大量模型中觀察到的縮放行為(scaling behaviour),在不同參數(shù)量規(guī)模下報(bào)告性能已經(jīng)成為常見(jiàn)的做法。然而,預(yù)訓(xùn)練模型模型性能的提高并不一定能完全轉(zhuǎn)化為下游任務(wù)的性能提升。
總之,預(yù)訓(xùn)練的模型已經(jīng)被證明可以很好地推廣到特定領(lǐng)域或模式的新任務(wù)中。它們表現(xiàn)出強(qiáng)大的few-shot learning和robust learning的能力。因此,這項(xiàng)研究的進(jìn)展是非常有價(jià)值的,并能實(shí)現(xiàn)新的現(xiàn)實(shí)應(yīng)用。
對(duì)于下一步的發(fā)展,研究人員認(rèn)為將在未來(lái)看到更多、甚至更大的預(yù)訓(xùn)練模型的開(kāi)發(fā)。同時(shí),我們應(yīng)該期待單個(gè)模型在同一時(shí)間執(zhí)行更多的任務(wù)。在語(yǔ)言方面已經(jīng)是這樣了,模型可以通過(guò)將它們框定在一個(gè)共同的文本到文本的格式中來(lái)執(zhí)行許多任務(wù)。同樣地,我們將可能看到圖像和語(yǔ)音模型可以在一個(gè)模型中執(zhí)行許多共同的任務(wù)。
2 大規(guī)模多任務(wù)學(xué)習(xí)
大多數(shù)預(yù)訓(xùn)練模型都是自監(jiān)督的。他們一般通過(guò)一個(gè)不需要明確監(jiān)督的目標(biāo)從大量無(wú)標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。然而,在許多領(lǐng)域中已經(jīng)有了大量的標(biāo)記數(shù)據(jù),這些數(shù)據(jù)可以用來(lái)學(xué)習(xí)更好的表征。
到目前為止,諸如T0、FLAN和ExT5等多任務(wù)模型,已經(jīng)在大約100個(gè)主要針對(duì)語(yǔ)言的任務(wù)上進(jìn)行了預(yù)訓(xùn)練。這種大規(guī)模的多任務(wù)學(xué)習(xí)與元學(xué)習(xí)密切相關(guān)。如果能夠接觸到不同的任務(wù)分配,模型就可以學(xué)習(xí)不同類型的行為,比如如何進(jìn)行語(yǔ)境學(xué)習(xí)。
ExT5能夠?qū)崿F(xiàn)大規(guī)模多任務(wù)學(xué)習(xí)。在預(yù)訓(xùn)練期間,ExT5以文本到文本的形式對(duì)一組不同任務(wù)的輸入進(jìn)行訓(xùn)練,以產(chǎn)生相應(yīng)的輸出。這些任務(wù)包括掩碼語(yǔ)言建模、摘要、語(yǔ)義分析、閉卷問(wèn)答、風(fēng)格轉(zhuǎn)換、對(duì)話建模、自然語(yǔ)言推理、 Winograd-schema風(fēng)格的核心參考解析等。
最近研究的一些模型,如 T5和 GPT-3,都使用了文本到文本的格式,這也成為了大規(guī)模多任務(wù)學(xué)習(xí)的訓(xùn)練基礎(chǔ)。因此,模型不再需要手工設(shè)計(jì)特定任務(wù)的損失函數(shù)或特定任務(wù)層,從而有效地進(jìn)行跨任務(wù)學(xué)習(xí)。這種最新的方法強(qiáng)調(diào)了將自監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督的多任務(wù)學(xué)習(xí)相結(jié)合的好處,并證明了兩者的結(jié)合會(huì)得到更加通用的模型。
3 不止于Transformer
前面提到的預(yù)訓(xùn)練模型大多數(shù)都基于Transformer的模型架構(gòu)。在2021年,研究人員也一直在尋找Transformer的替代模型。
Perceiver(感知器)的模型架構(gòu)類似于Transformer的架構(gòu),使用一個(gè)固定維度的潛在數(shù)組作為基礎(chǔ)表示,并通過(guò)交叉注意力對(duì)輸入進(jìn)行調(diào)節(jié),從而將輸入擴(kuò)展到高維。Perceiver IO 進(jìn)一步擴(kuò)展了模型的架構(gòu)來(lái)處理結(jié)構(gòu)化的輸出空間。
還有一些模型嘗試改進(jìn)Transformer中的自注意力層,一個(gè)比較成功的例子就是使用多層感知器(MLPs) ,如 MLP-Mixer和 gMLP模型。另外FNet 使用一維傅立葉變換代替自注意力來(lái)混合token層面的信息。
一般來(lái)說(shuō),把一個(gè)模型架構(gòu)和預(yù)訓(xùn)練策略脫鉤是有價(jià)值的。如果 CNN 預(yù)訓(xùn)練的方式與Transformer模型相同,那么他們?cè)谠S多 NLP 任務(wù)上都能得到更有競(jìng)爭(zhēng)力的性能。
同樣,使用其他的預(yù)訓(xùn)練目標(biāo)函數(shù),例如ELECTRA-style的預(yù)訓(xùn)練也可能會(huì)帶來(lái)性能收益。
4 提示
受到GPT-3的啟發(fā),prompting對(duì)于NLP模型來(lái)說(shuō)是一種可行的新范式。
提示符通常包括一個(gè)要求模型做出某種預(yù)測(cè)的模式,以及一個(gè)用于將預(yù)測(cè)轉(zhuǎn)換為類標(biāo)簽的語(yǔ)句化程序。目前的方法有PET, iPET 和 AdaPET,利用提示進(jìn)行Few-shot學(xué)習(xí)。
然而,提示并不是一種靈丹妙藥,模型的性能可能會(huì)因不同的提示不同而大不相同。并且,為了找到最好的提示,仍然需要標(biāo)注數(shù)據(jù)。
為了可靠地比較模型在few-shot setting中的表現(xiàn),有研究人員開(kāi)發(fā)了新的評(píng)價(jià)程序。通過(guò)使用公共提示池(public pool of prompts, P3)的中的大量提示,人們可以探索使用提示的最佳方式,也為一般的研究領(lǐng)域提供了一個(gè)極好的概述。
目前研究人員僅僅觸及了使用提示來(lái)改進(jìn)模型學(xué)習(xí)的皮毛。之后的提示將變得更加精細(xì),例如包括更長(zhǎng)的指令、正面和反面的例子以及一般的啟發(fā)法。提示也可能是將自然語(yǔ)言解釋納入模型訓(xùn)練的一種更自然的方式。
5 高效方法
預(yù)訓(xùn)練模型通常非常大,而且在實(shí)踐中效率往往不高。
2021年,出現(xiàn)了一些更有效的架構(gòu)和更有效的微調(diào)方法。在模型方面,也有幾個(gè)新的、更有效的自注意力的版本。
目前的預(yù)訓(xùn)練模型非常強(qiáng)大,只需更新少量的參數(shù)就可以有效地進(jìn)行調(diào)節(jié),于是出現(xiàn)了基于連續(xù)提示和適配器等的更有效的微調(diào)方法迅速發(fā)展。這種能力還能通過(guò)學(xué)習(xí)適當(dāng)?shù)那熬Y或適當(dāng)?shù)霓D(zhuǎn)換來(lái)適應(yīng)新的模式。
另外,還有一些其他路線來(lái)提高效率,例如創(chuàng)建更有效的優(yōu)化器以及稀疏度的量化方法。
當(dāng)模型不能在標(biāo)準(zhǔn)硬件上運(yùn)行,或者成本過(guò)于昂貴時(shí),模型的可用性就會(huì)大打折扣。為了保證模型在不斷擴(kuò)大的同時(shí),模型部署也能使用這些方法并且從中獲益,模型的效率需要不斷進(jìn)步。
下一步的研究中,人們應(yīng)該能夠更加容易地獲得和使用有效的模型和訓(xùn)練方法。與此同時(shí),社區(qū)將開(kāi)發(fā)更有效的方法,來(lái)與大型模型接口,并有效地適應(yīng)、組合或修改它們,而不必從頭開(kāi)始預(yù)先訓(xùn)練一個(gè)新模型。
6 基準(zhǔn)測(cè)試
最近機(jī)器學(xué)習(xí)和自然語(yǔ)言處理模型的能力迅速提高,已經(jīng)超過(guò)了許多基準(zhǔn)的測(cè)量能力。與此同時(shí),社區(qū)用于進(jìn)行評(píng)估的基準(zhǔn)越來(lái)越少,而這些基準(zhǔn)來(lái)自少數(shù)精英機(jī)構(gòu)。每個(gè)機(jī)構(gòu)的數(shù)據(jù)集使用情況表明,超過(guò)50% 的數(shù)據(jù)集都可以認(rèn)為來(lái)自12個(gè)機(jī)構(gòu)。
以基尼指數(shù)衡量的數(shù)據(jù)集使用在機(jī)構(gòu)和特定數(shù)據(jù)庫(kù)上的集中度有所增加。
因此,在2021年,可以看到很多關(guān)于最佳實(shí)踐,以及如何可靠地評(píng)估這些模型的未來(lái)發(fā)展的討論。自然語(yǔ)言處理社區(qū)2021年出現(xiàn)的顯著的排行榜范式有: 動(dòng)態(tài)對(duì)抗性評(píng)價(jià)(dynamic adversarial evaluation)、社區(qū)驅(qū)動(dòng)評(píng)價(jià)(community-driven evaluation),社區(qū)成員合作創(chuàng)建評(píng)價(jià)數(shù)據(jù)集,如 BIG-bench、跨不同錯(cuò)誤類型的交互式細(xì)粒度評(píng)價(jià) ,以及超越單一性能指標(biāo)評(píng)價(jià)模型的多維評(píng)價(jià)。此外,新的基準(zhǔn)提出了有影響力的設(shè)置,如few-shot評(píng)價(jià)和跨域泛化。
還可以看到新的基準(zhǔn),其重點(diǎn)是評(píng)估通用的預(yù)訓(xùn)練模型,用于特定的模式,如不同的語(yǔ)言(印度尼西亞語(yǔ)和羅馬尼亞語(yǔ)),以及多種模態(tài)和多語(yǔ)言環(huán)境,也應(yīng)該更多地關(guān)注評(píng)價(jià)指標(biāo)。
機(jī)器翻譯meta-evaluation顯示,在過(guò)去十年的769篇機(jī)器翻譯論文中,盡管提出了108個(gè)可供選擇的指,通常具有更好的人類相關(guān)性,但74.3% 的論文仍僅使用 BLEU。因此,最近如 GEM 和bidimensional排行榜建議對(duì)模型和方法進(jìn)行聯(lián)合評(píng)估。
基準(zhǔn)測(cè)試和評(píng)價(jià)是機(jī)器學(xué)習(xí)和自然語(yǔ)言處理科學(xué)進(jìn)步的關(guān)鍵。如果沒(méi)有準(zhǔn)確和可靠的基準(zhǔn),就不可能知道我們到底是在取得真正的進(jìn)步,還是在過(guò)度適應(yīng)根深蒂固的數(shù)據(jù)集和指標(biāo)。
為了提高對(duì)基準(zhǔn)測(cè)試問(wèn)題的認(rèn)識(shí),下一步應(yīng)該更加深思熟慮地設(shè)計(jì)新的數(shù)據(jù)集。對(duì)新模型的評(píng)估也應(yīng)該少關(guān)注單一的性能指標(biāo),而是考慮多個(gè)維度,如模型的公平性、效率和魯棒性等。
7 條件圖像生成
條件性圖像生成,即基于文本描述生成圖像,在2021年取得了顯著的進(jìn)步。
最近的方法不是像 DALL-E 模型那樣直接基于文本輸入生成圖像,而是利用像 CLIP 這樣的圖像和文本embedding聯(lián)合模型來(lái)引導(dǎo) VQ-GAN 這樣的強(qiáng)大生成模型的輸出。
基于似然的擴(kuò)散模型,逐漸消除信號(hào)中的噪聲,已經(jīng)成為強(qiáng)大的新的生成模型,可以勝過(guò) GANs 。通過(guò)基于文本輸入引導(dǎo)輸出,模型生成的圖像也逐漸接近逼真的圖像質(zhì)量。這樣的模型也特別適用于圖像修復(fù),還可以根據(jù)描述修改圖像的區(qū)域。
與基于GAN的模型相比,最近基于擴(kuò)散的模型的取樣速度要慢得多。這些模型需要提高效率,以使它們對(duì)現(xiàn)實(shí)應(yīng)用程序有用。這個(gè)領(lǐng)域還需要對(duì)人機(jī)交互進(jìn)行更多的研究,以確定這些模型如何通過(guò)最佳方式和應(yīng)用幫助人類創(chuàng)作。
8 用于科學(xué)的機(jī)器學(xué)習(xí)
2021年,機(jī)器學(xué)習(xí)技術(shù)在推進(jìn)自然科學(xué)方面取得了一些突破。
在氣象學(xué)方面,降水臨近預(yù)報(bào)和預(yù)報(bào)的進(jìn)展導(dǎo)致了預(yù)報(bào)準(zhǔn)確性的大幅度提高。在這兩種情況下,模型都優(yōu)于最先進(jìn)的基于物理的預(yù)測(cè)模型。
在生物學(xué)領(lǐng)域,AlphaFold 2.0以前所未有的精確度預(yù)測(cè)了蛋白質(zhì)的結(jié)構(gòu),即使在沒(méi)有類似結(jié)構(gòu)的情況下也是如此。
在數(shù)學(xué)方面,機(jī)器學(xué)習(xí)被證明能夠引導(dǎo)數(shù)學(xué)家的直覺(jué)去發(fā)現(xiàn)新的聯(lián)系和算法。
Transformer模型也已被證明能夠?qū)W習(xí)數(shù)學(xué)性質(zhì)的差分系統(tǒng),如訓(xùn)練足夠的數(shù)據(jù)就能夠局部穩(wěn)定。
使用循環(huán)中的模型(models in-the-loop)來(lái)幫助研究人員發(fā)現(xiàn)和開(kāi)發(fā)新的進(jìn)展是一個(gè)特別引人注目的方向。它既需要開(kāi)發(fā)強(qiáng)大的模型,也需要研究交互式機(jī)器學(xué)習(xí)和人機(jī)交互。
9 程序合成
今年大型語(yǔ)言模型最引人注目的應(yīng)用之一是代碼生成,Codex 作為 GitHub Copilot 的一部分,首次整合到一個(gè)主要產(chǎn)品中。
然而,對(duì)于當(dāng)前的模型來(lái)說(shuō),生成復(fù)雜和長(zhǎng)形式的程序仍然是一個(gè)挑戰(zhàn)。一個(gè)有趣的相關(guān)方向是學(xué)習(xí)執(zhí)行或建模程序,這可以通過(guò)執(zhí)行多步計(jì)算得到改進(jìn),其中中間的計(jì)算步驟記錄在一個(gè)暫存器(scratchpad)中。
在實(shí)踐中,代碼生成模型在多大程度上改進(jìn)了軟件工程師的工作流程,但仍然是一個(gè)有待解決的問(wèn)題。為了真正發(fā)揮作用,這些模型ー類似于對(duì)話模型ー需要能夠根據(jù)新的信息更新其預(yù)測(cè),并需要考慮到局部和全局下的代碼上下文。
10 偏見(jiàn)
鑒于預(yù)訓(xùn)練大模型的潛在影響,至關(guān)重要的是,這些模型不應(yīng)包含有害的偏見(jiàn),不應(yīng)被濫用以產(chǎn)生有害的內(nèi)容,而應(yīng)當(dāng)被可持續(xù)的使用。
一些研究人員對(duì)性別、特定種族群體和政治傾向等受保護(hù)屬性的偏見(jiàn)進(jìn)行了調(diào)查,強(qiáng)調(diào)了這種模型的潛在風(fēng)險(xiǎn)。
然而,如果單純地從毒性模型中消除偏見(jiàn)可能會(huì)導(dǎo)致對(duì)邊緣化群體相關(guān)文本的覆蓋率降低。
到目前為止,在英語(yǔ)和預(yù)先訓(xùn)練的模型以及特定的文本生成或分類應(yīng)用方面,大多探討了偏見(jiàn)??紤]到這些模型的預(yù)期用途和生命周期,我們還應(yīng)致力于在多語(yǔ)種環(huán)境中確定和減輕不同模式組合方面的偏見(jiàn),以及在預(yù)訓(xùn)練模型的使用的不同階段——預(yù)訓(xùn)練后、微調(diào)后和測(cè)試時(shí)——的偏見(jiàn)。
11 檢索增強(qiáng)
檢索增強(qiáng)語(yǔ)言模型(Retrieval-augmented language models)能夠?qū)z索整合到預(yù)訓(xùn)練和下游任務(wù)中。
2021年,檢索語(yǔ)料庫(kù)已經(jīng)擴(kuò)大到一萬(wàn)億個(gè)token ,并且模型已經(jīng)能夠查詢網(wǎng)絡(luò)以回答問(wèn)題。研究人員還發(fā)現(xiàn)了將檢索集成到預(yù)訓(xùn)練語(yǔ)言模型中的新方法。
檢索增強(qiáng)使模型能夠更有效地利用參數(shù),因?yàn)樗鼈冎恍枰趨?shù)中存儲(chǔ)更少的知識(shí),而且可以進(jìn)行檢索。它還通過(guò)簡(jiǎn)單地更新用于檢索的數(shù)據(jù)實(shí)現(xiàn)了有效的域自適應(yīng)。
未來(lái),我們可能會(huì)看到不同形式的檢索,以利用不同類型的信息,如常識(shí)性知識(shí),事實(shí)關(guān)系,語(yǔ)言信息等。檢索擴(kuò)展也可以與更加結(jié)構(gòu)化的知識(shí)檢索形式相結(jié)合,例如知識(shí)庫(kù)總體方法和開(kāi)放式信息抽取檢索。
12 無(wú)Token模型
自從像 BERT 這樣的預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)以來(lái),tokenize后的subword組成的文本已經(jīng)成為 NLP 的標(biāo)準(zhǔn)輸入格式。
然而,子詞標(biāo)記已經(jīng)被證明在有噪聲的輸入中表現(xiàn)不佳,比如在社交媒體和某些類型的詞法中常見(jiàn)的拼寫(xiě)錯(cuò)誤(typos)或拼寫(xiě)變化(spelling variation)。
2021年出現(xiàn)了新的token-free方法,這些方法直接使用字符序列。這些模型已經(jīng)被證明比多語(yǔ)言模型性能更好,并且在非標(biāo)準(zhǔn)語(yǔ)言上表現(xiàn)得特別好。
因此,token-free可能是比subword-based Transformer更有前途的一種替代模型。
由于token-free模型具有更大的靈活性,因此能夠更好地對(duì)詞法進(jìn)行建模,并且能夠更好地概括新詞和語(yǔ)言的變化。然而,與基于不同類型的形態(tài)學(xué)或構(gòu)詞過(guò)程的子詞方法相比,目前仍不清楚它們的表現(xiàn)如何,以及這些模型做出了什么取舍。
13 時(shí)序適應(yīng)性
模型在許多方面都是基于它們所受訓(xùn)練的數(shù)據(jù)而存在偏差的。
在2021年,這些偏差受到越來(lái)越多的關(guān)注,其中之一是模型所訓(xùn)練的數(shù)據(jù)時(shí)間框架存在偏差。鑒于語(yǔ)言不斷發(fā)展,新詞匯不斷進(jìn)入論述,那些以過(guò)時(shí)數(shù)據(jù)為基礎(chǔ)的模型已經(jīng)被證明概括起來(lái)相對(duì)較差。
然而,時(shí)序適應(yīng)( temporal adaptation)何時(shí)有用,可能取決于下游任務(wù)。例如,如果語(yǔ)言使用中的事件驅(qū)動(dòng)的變化與任務(wù)性能無(wú)關(guān),那么它對(duì)任務(wù)的幫助就可能不大。
未來(lái),開(kāi)發(fā)能夠適應(yīng)新時(shí)間框架的方法需要擺脫靜態(tài)的預(yù)訓(xùn)練微調(diào)設(shè)置,并需要有效的方法更新預(yù)訓(xùn)練模型的知識(shí),這兩種有效的方法以及檢索增強(qiáng)在這方面是有用的。
14 數(shù)據(jù)的重要性
數(shù)據(jù)長(zhǎng)期以來(lái)一直是機(jī)器學(xué)習(xí)的關(guān)鍵組成部分,但數(shù)據(jù)的作用通常被模型的進(jìn)步所掩蓋。
然而,考慮到數(shù)據(jù)對(duì)于擴(kuò)展模型的重要性,人們的注意力正慢慢從以模型為中心轉(zhuǎn)移到以數(shù)據(jù)為中心。這當(dāng)中關(guān)鍵的主題包括如何有效地建立和維護(hù)新的數(shù)據(jù)集,以及如何確保數(shù)據(jù)質(zhì)量。
Andrew NG在NeurIPS 2021上舉辦了一個(gè)研討會(huì)就研究了這個(gè)問(wèn)題——以數(shù)據(jù)為中心的人工智能。
目前關(guān)于如何有效地為不同的任務(wù)建立數(shù)據(jù)集,確保數(shù)據(jù)質(zhì)量等缺乏最佳實(shí)踐和原則性方法。關(guān)于數(shù)據(jù)如何與模型的學(xué)習(xí)相互作用,以及數(shù)據(jù)如何影響模型的偏差,人們?nèi)匀恢跎佟?/p>
15 元學(xué)習(xí)
元學(xué)習(xí)和遷移學(xué)習(xí),盡管都有著Few-shot learning的共同目標(biāo),但研究的群體卻不同。在一個(gè)新的基準(zhǔn)上,大規(guī)模遷移學(xué)習(xí)方法優(yōu)于基于元學(xué)習(xí)的方法。
一個(gè)有前景的方向是擴(kuò)大元學(xué)習(xí)方法,這種方法可以更高效利用內(nèi)存的訓(xùn)練方法相結(jié)合,可以提高元學(xué)習(xí)模型在現(xiàn)實(shí)世界基準(zhǔn)測(cè)試上的性能。元學(xué)習(xí)方法也可以結(jié)合有效的適應(yīng)方法,比如FiLM層[110] ,使得通用模型更有效地適應(yīng)新的數(shù)據(jù)集。
關(guān)鍵詞: DeepMind科學(xué)家總結(jié)2021年的15個(gè)高能研究