給研究思路就能推薦數(shù)據(jù)集,CMU博士后等人推出NLP數(shù)據(jù)處理神器

發(fā)布時間:2022-03-05 08:32:22  |  來源:騰訊網(wǎng)  

說出你的研究思路,就能給你推薦合適的數(shù)據(jù)集:

當(dāng)然還可自己按需檢索,同時標(biāo)出不同數(shù)據(jù)集的熱度:

更厲害的是能直接幫你分析數(shù)據(jù)集。

語料中是否包含仇恨言論、性別歧視語料等,所占比例是多少,通通都能告訴你。

以上,是一個名叫DataLab的通用數(shù)據(jù)處理平臺。

它包含1715個數(shù)據(jù)集,提供數(shù)據(jù)診斷、數(shù)據(jù)搜索、全局分析、標(biāo)準(zhǔn)化處理4方面的功能。

不僅可以幫助用戶分析數(shù)據(jù)的特征,還能對不同數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。

其幕后打造者之一為卡內(nèi)基梅隆大學(xué)博士后劉鵬飛,他博士畢業(yè)于復(fù)旦大學(xué)。

方便,方便,還是方便

其實(shí)對于很多人來說,構(gòu)建模型往往在數(shù)據(jù)集階段就會被卡住。

現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)集雖然一抓一大把,但質(zhì)量參差不齊。

而且很多新入門的童鞋也對于自己應(yīng)該用什么樣的數(shù)據(jù)集,非常迷茫。

那么,一個覆蓋數(shù)據(jù)集范圍廣、還能進(jìn)行分析的平臺,或許能幫助你找到心儀的數(shù)據(jù)集。

基于這樣的背景下,劉鵬飛所在團(tuán)隊(duì)就搞了個DataLab。

就拿找數(shù)據(jù)集來說吧,在DataLab上你不僅可以按照模型的需求來篩選合適數(shù)據(jù)集,還能看看哪些數(shù)據(jù)集最受歡迎、哪些下載量最多、哪些訪問量最多。

畢竟“大家說好才是真的好”,這句話在哪也受用嘛。

再來看標(biāo)準(zhǔn)化處理上。

DataLab提供86個功能,可以將不同的數(shù)據(jù)集標(biāo)準(zhǔn)化處理為統(tǒng)一格式。

如果你構(gòu)建模型時不知道該用什么樣的數(shù)據(jù)集,還能直接問DataLab。

比如當(dāng)你輸入研究思路:

我想訓(xùn)練一個可以識別啤酒評論中包含的積極和消極情緒的模型。

DataLab就能給出20個數(shù)據(jù)集任君選擇,每一個點(diǎn)進(jìn)去還有更加詳細(xì)的介紹。

除了提供數(shù)據(jù)集分析和處理功能,DataLab還可以根據(jù)現(xiàn)有的數(shù)據(jù)為大家提供一些全球視野的分析。

比如它能展現(xiàn)全球不同國家AI本地化技術(shù)積累的情況。

其開發(fā)者劉鵬飛表示,數(shù)據(jù),尤其是標(biāo)注數(shù)據(jù)是訓(xùn)練一個AI系統(tǒng)的關(guān)鍵。所以很多時候,數(shù)據(jù)集的積累可以體現(xiàn)技術(shù)壁壘。

從DataLab上的大數(shù)據(jù)分析可以看出,美國在語言數(shù)據(jù)集上的優(yōu)勢巨大,因?yàn)楹芏喱F(xiàn)有公開、流行的數(shù)據(jù)集都是以英文為主。

相較之下,中文數(shù)據(jù)集的積累情況就不夠好。

同時,這一平臺也能對全球不同研究機(jī)構(gòu)在不同任務(wù)數(shù)據(jù)集上的表現(xiàn)進(jìn)行排名。

從下表中可以看到,CMU、微軟亞研院、JHU、UW幾個機(jī)構(gòu)位居前四,清華大學(xué)在國內(nèi)排名最高。

不過平臺開發(fā)者也提醒大家,平臺上的數(shù)據(jù)統(tǒng)計(jì)有可能因?yàn)橛脩籼峤粩?shù)據(jù)不全而導(dǎo)致結(jié)果不準(zhǔn)確/考慮不周全,僅作為參考之一。

用戶也可以在DataLab官網(wǎng)進(jìn)行數(shù)據(jù)糾正。

復(fù)旦校友領(lǐng)銜打造

DataLab由卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI)博士后劉鵬飛領(lǐng)銜打造。

劉鵬飛于2019年在復(fù)旦大學(xué)計(jì)算機(jī)系獲得博士學(xué)位,師從邱錫鵬教授、黃萱菁教授。

研究興趣包括NLP模型可解釋性、遷移學(xué)習(xí)、任務(wù)學(xué)習(xí)等。

博士期間,他包攬了各種計(jì)算機(jī)領(lǐng)域的獎學(xué)金,包括IBM博士獎學(xué)金、微軟學(xué)者獎學(xué)金、騰訊人工智能獎學(xué)金、百度獎學(xué)金。

談到打造DataLab這一平臺的初衷,劉鵬飛向量子位表示:

機(jī)器學(xué)習(xí)領(lǐng)域有太多技術(shù)需要被標(biāo)準(zhǔn)化和統(tǒng)一,也需要技術(shù)被折疊,不然就會造成一種資源過剩帶來的浪費(fèi)。

他提到,UC伯克利大學(xué)的明星實(shí)驗(yàn)室RISELab曾打造出很多新穎的技術(shù)工具,比如高性能分布式執(zhí)行框架Ray。

其掌舵人Ion Stoica教授在一次分享中提到“統(tǒng)一是它們成功的關(guān)鍵”。

DataLab這次的工作其實(shí)也是如此。

它的意義在于提供了一個“數(shù)據(jù)+操作”的統(tǒng)一框架,讓未來很多事情都可以轉(zhuǎn)化成兩件事:

定義/引入一個新的數(shù)據(jù)類型;

定義/引入一個新的數(shù)據(jù)操作(比如現(xiàn)在火熱的Prompt Learning,本質(zhì)上就是重構(gòu)數(shù)據(jù))。

由此,研究者和開發(fā)者就可以有一個統(tǒng)一的入口去進(jìn)行他們需要的各種數(shù)據(jù)分析與操作。

在DataLab里,不同數(shù)據(jù)類型、操作類型都被標(biāo)準(zhǔn)化,其目的就是讓用戶在前人已經(jīng)解決的事情上不要再浪費(fèi)時間,而是使用已經(jīng)有的技術(shù)去探索新的技術(shù)發(fā)展。

當(dāng)然,如果再深入一點(diǎn),劉鵬飛表示創(chuàng)建DataLab還源于一股內(nèi)在驅(qū)動力:

如何讓自己做的事情能夠在推動人類社會生產(chǎn)力發(fā)展上扮演一些重要的角色。

事實(shí)上,劉鵬飛也不是第一次為開發(fā)者、研究人員們打造便利的“小工具”了。

比如幫助開發(fā)者提出創(chuàng)新學(xué)術(shù)idea的輔助工具ExplainaBoard。

還有可自動生成論文評審結(jié)果的Demo網(wǎng)站ReviewAdvisor,只需要上傳PDF論文,即可自動生成評審結(jié)果。

哦對了,劉鵬飛還會在知乎上分享自己在NLP方面的一些研究心得。

比如這篇《近代自然語言處理技術(shù)發(fā)展的“第四范式”》就曾在網(wǎng)上引起過不小的反響。

感興趣的童鞋,歡迎移步大佬知乎圍觀~

DataLab地址:

http://datalab.nlpedia.ai/

GitHub地址:

https://github.com/ExpressAI/DataLab/

劉鵬飛知乎:

https://www.zhihu.com/people/liu-peng-fei-65-23/posts

關(guān)鍵詞: 給研究思路就能推薦數(shù)據(jù)集 CMU博士后等人推出NLP數(shù)據(jù)處理

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com