說出你的研究思路,就能給你推薦合適的數(shù)據(jù)集:
當(dāng)然還可自己按需檢索,同時標(biāo)出不同數(shù)據(jù)集的熱度:
更厲害的是能直接幫你分析數(shù)據(jù)集。
語料中是否包含仇恨言論、性別歧視語料等,所占比例是多少,通通都能告訴你。
以上,是一個名叫DataLab的通用數(shù)據(jù)處理平臺。
它包含1715個數(shù)據(jù)集,提供數(shù)據(jù)診斷、數(shù)據(jù)搜索、全局分析、標(biāo)準(zhǔn)化處理4方面的功能。
不僅可以幫助用戶分析數(shù)據(jù)的特征,還能對不同數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。
其幕后打造者之一為卡內(nèi)基梅隆大學(xué)博士后劉鵬飛,他博士畢業(yè)于復(fù)旦大學(xué)。
方便,方便,還是方便
其實(shí)對于很多人來說,構(gòu)建模型往往在數(shù)據(jù)集階段就會被卡住。
現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)集雖然一抓一大把,但質(zhì)量參差不齊。
而且很多新入門的童鞋也對于自己應(yīng)該用什么樣的數(shù)據(jù)集,非常迷茫。
那么,一個覆蓋數(shù)據(jù)集范圍廣、還能進(jìn)行分析的平臺,或許能幫助你找到心儀的數(shù)據(jù)集。
基于這樣的背景下,劉鵬飛所在團(tuán)隊(duì)就搞了個DataLab。
就拿找數(shù)據(jù)集來說吧,在DataLab上你不僅可以按照模型的需求來篩選合適數(shù)據(jù)集,還能看看哪些數(shù)據(jù)集最受歡迎、哪些下載量最多、哪些訪問量最多。
畢竟“大家說好才是真的好”,這句話在哪也受用嘛。
再來看標(biāo)準(zhǔn)化處理上。
DataLab提供86個功能,可以將不同的數(shù)據(jù)集標(biāo)準(zhǔn)化處理為統(tǒng)一格式。
如果你構(gòu)建模型時不知道該用什么樣的數(shù)據(jù)集,還能直接問DataLab。
比如當(dāng)你輸入研究思路:
我想訓(xùn)練一個可以識別啤酒評論中包含的積極和消極情緒的模型。
DataLab就能給出20個數(shù)據(jù)集任君選擇,每一個點(diǎn)進(jìn)去還有更加詳細(xì)的介紹。
除了提供數(shù)據(jù)集分析和處理功能,DataLab還可以根據(jù)現(xiàn)有的數(shù)據(jù)為大家提供一些全球視野的分析。
比如它能展現(xiàn)全球不同國家AI本地化技術(shù)積累的情況。
其開發(fā)者劉鵬飛表示,數(shù)據(jù),尤其是標(biāo)注數(shù)據(jù)是訓(xùn)練一個AI系統(tǒng)的關(guān)鍵。所以很多時候,數(shù)據(jù)集的積累可以體現(xiàn)技術(shù)壁壘。
從DataLab上的大數(shù)據(jù)分析可以看出,美國在語言數(shù)據(jù)集上的優(yōu)勢巨大,因?yàn)楹芏喱F(xiàn)有公開、流行的數(shù)據(jù)集都是以英文為主。
相較之下,中文數(shù)據(jù)集的積累情況就不夠好。
同時,這一平臺也能對全球不同研究機(jī)構(gòu)在不同任務(wù)數(shù)據(jù)集上的表現(xiàn)進(jìn)行排名。
從下表中可以看到,CMU、微軟亞研院、JHU、UW幾個機(jī)構(gòu)位居前四,清華大學(xué)在國內(nèi)排名最高。
不過平臺開發(fā)者也提醒大家,平臺上的數(shù)據(jù)統(tǒng)計(jì)有可能因?yàn)橛脩籼峤粩?shù)據(jù)不全而導(dǎo)致結(jié)果不準(zhǔn)確/考慮不周全,僅作為參考之一。
用戶也可以在DataLab官網(wǎng)進(jìn)行數(shù)據(jù)糾正。
復(fù)旦校友領(lǐng)銜打造
DataLab由卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI)博士后劉鵬飛領(lǐng)銜打造。
劉鵬飛于2019年在復(fù)旦大學(xué)計(jì)算機(jī)系獲得博士學(xué)位,師從邱錫鵬教授、黃萱菁教授。
研究興趣包括NLP模型可解釋性、遷移學(xué)習(xí)、任務(wù)學(xué)習(xí)等。
博士期間,他包攬了各種計(jì)算機(jī)領(lǐng)域的獎學(xué)金,包括IBM博士獎學(xué)金、微軟學(xué)者獎學(xué)金、騰訊人工智能獎學(xué)金、百度獎學(xué)金。
談到打造DataLab這一平臺的初衷,劉鵬飛向量子位表示:
機(jī)器學(xué)習(xí)領(lǐng)域有太多技術(shù)需要被標(biāo)準(zhǔn)化和統(tǒng)一,也需要技術(shù)被折疊,不然就會造成一種資源過剩帶來的浪費(fèi)。
他提到,UC伯克利大學(xué)的明星實(shí)驗(yàn)室RISELab曾打造出很多新穎的技術(shù)工具,比如高性能分布式執(zhí)行框架Ray。
其掌舵人Ion Stoica教授在一次分享中提到“統(tǒng)一是它們成功的關(guān)鍵”。
DataLab這次的工作其實(shí)也是如此。
它的意義在于提供了一個“數(shù)據(jù)+操作”的統(tǒng)一框架,讓未來很多事情都可以轉(zhuǎn)化成兩件事:
定義/引入一個新的數(shù)據(jù)類型;
定義/引入一個新的數(shù)據(jù)操作(比如現(xiàn)在火熱的Prompt Learning,本質(zhì)上就是重構(gòu)數(shù)據(jù))。
由此,研究者和開發(fā)者就可以有一個統(tǒng)一的入口去進(jìn)行他們需要的各種數(shù)據(jù)分析與操作。
在DataLab里,不同數(shù)據(jù)類型、操作類型都被標(biāo)準(zhǔn)化,其目的就是讓用戶在前人已經(jīng)解決的事情上不要再浪費(fèi)時間,而是使用已經(jīng)有的技術(shù)去探索新的技術(shù)發(fā)展。
當(dāng)然,如果再深入一點(diǎn),劉鵬飛表示創(chuàng)建DataLab還源于一股內(nèi)在驅(qū)動力:
如何讓自己做的事情能夠在推動人類社會生產(chǎn)力發(fā)展上扮演一些重要的角色。
事實(shí)上,劉鵬飛也不是第一次為開發(fā)者、研究人員們打造便利的“小工具”了。
比如幫助開發(fā)者提出創(chuàng)新學(xué)術(shù)idea的輔助工具ExplainaBoard。
還有可自動生成論文評審結(jié)果的Demo網(wǎng)站ReviewAdvisor,只需要上傳PDF論文,即可自動生成評審結(jié)果。
哦對了,劉鵬飛還會在知乎上分享自己在NLP方面的一些研究心得。
比如這篇《近代自然語言處理技術(shù)發(fā)展的“第四范式”》就曾在網(wǎng)上引起過不小的反響。
感興趣的童鞋,歡迎移步大佬知乎圍觀~
DataLab地址:
http://datalab.nlpedia.ai/
GitHub地址:
https://github.com/ExpressAI/DataLab/
劉鵬飛知乎:
https://www.zhihu.com/people/liu-peng-fei-65-23/posts
關(guān)鍵詞: 給研究思路就能推薦數(shù)據(jù)集 CMU博士后等人推出NLP數(shù)據(jù)處理