91精品国产丝袜高跟鞋,亚洲国产精品一区二区三区在线观看 ,亚洲国产精品无码动态图

說出你的研究思路，就能給你推薦合適的數(shù)據(jù)集：

當(dāng)然還可自己按需檢索，同時標(biāo)出不同數(shù)據(jù)集的熱度：

更厲害的是能直接幫你分析數(shù)據(jù)集。

語料中是否包含仇恨言論、性別歧視語料等，所占比例是多少，通通都能告訴你。

以上，是一個名叫DataLab的通用數(shù)據(jù)處理平臺。

它包含1715個數(shù)據(jù)集，提供數(shù)據(jù)診斷、數(shù)據(jù)搜索、全局分析、標(biāo)準(zhǔn)化處理4方面的功能。

不僅可以幫助用戶分析數(shù)據(jù)的特征，還能對不同數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。

其幕后打造者之一為卡內(nèi)基梅隆大學(xué)博士后劉鵬飛，他博士畢業(yè)于復(fù)旦大學(xué)。

方便，方便，還是方便

其實(shí)對于很多人來說，構(gòu)建模型往往在數(shù)據(jù)集階段就會被卡住。

現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)集雖然一抓一大把，但質(zhì)量參差不齊。

而且很多新入門的童鞋也對于自己應(yīng)該用什么樣的數(shù)據(jù)集，非常迷茫。

那么，一個覆蓋數(shù)據(jù)集范圍廣、還能進(jìn)行分析的平臺，或許能幫助你找到心儀的數(shù)據(jù)集。

基于這樣的背景下，劉鵬飛所在團(tuán)隊(duì)就搞了個DataLab。

就拿找數(shù)據(jù)集來說吧，在DataLab上你不僅可以按照模型的需求來篩選合適數(shù)據(jù)集，還能看看哪些數(shù)據(jù)集最受歡迎、哪些下載量最多、哪些訪問量最多。

畢竟“大家說好才是真的好”，這句話在哪也受用嘛。

再來看標(biāo)準(zhǔn)化處理上。

DataLab提供86個功能，可以將不同的數(shù)據(jù)集標(biāo)準(zhǔn)化處理為統(tǒng)一格式。

如果你構(gòu)建模型時不知道該用什么樣的數(shù)據(jù)集，還能直接問DataLab。

比如當(dāng)你輸入研究思路：

我想訓(xùn)練一個可以識別啤酒評論中包含的積極和消極情緒的模型。

DataLab就能給出20個數(shù)據(jù)集任君選擇，每一個點(diǎn)進(jìn)去還有更加詳細(xì)的介紹。

除了提供數(shù)據(jù)集分析和處理功能，DataLab還可以根據(jù)現(xiàn)有的數(shù)據(jù)為大家提供一些全球視野的分析。

比如它能展現(xiàn)全球不同國家AI本地化技術(shù)積累的情況。

其開發(fā)者劉鵬飛表示，數(shù)據(jù)，尤其是標(biāo)注數(shù)據(jù)是訓(xùn)練一個AI系統(tǒng)的關(guān)鍵。所以很多時候，數(shù)據(jù)集的積累可以體現(xiàn)技術(shù)壁壘。

從DataLab上的大數(shù)據(jù)分析可以看出，美國在語言數(shù)據(jù)集上的優(yōu)勢巨大，因?yàn)楹芏喱F(xiàn)有公開、流行的數(shù)據(jù)集都是以英文為主。

相較之下，中文數(shù)據(jù)集的積累情況就不夠好。

同時，這一平臺也能對全球不同研究機(jī)構(gòu)在不同任務(wù)數(shù)據(jù)集上的表現(xiàn)進(jìn)行排名。

從下表中可以看到，CMU、微軟亞研院、JHU、UW幾個機(jī)構(gòu)位居前四，清華大學(xué)在國內(nèi)排名最高。

不過平臺開發(fā)者也提醒大家，平臺上的數(shù)據(jù)統(tǒng)計(jì)有可能因?yàn)橛脩籼峤粩?shù)據(jù)不全而導(dǎo)致結(jié)果不準(zhǔn)確/考慮不周全，僅作為參考之一。

用戶也可以在DataLab官網(wǎng)進(jìn)行數(shù)據(jù)糾正。

復(fù)旦校友領(lǐng)銜打造

DataLab由卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所（LTI）博士后劉鵬飛領(lǐng)銜打造。

劉鵬飛于2019年在復(fù)旦大學(xué)計(jì)算機(jī)系獲得博士學(xué)位，師從邱錫鵬教授、黃萱菁教授。

研究興趣包括NLP模型可解釋性、遷移學(xué)習(xí)、任務(wù)學(xué)習(xí)等。

博士期間，他包攬了各種計(jì)算機(jī)領(lǐng)域的獎學(xué)金，包括IBM博士獎學(xué)金、微軟學(xué)者獎學(xué)金、騰訊人工智能獎學(xué)金、百度獎學(xué)金。

談到打造DataLab這一平臺的初衷，劉鵬飛向量子位表示：

機(jī)器學(xué)習(xí)領(lǐng)域有太多技術(shù)需要被標(biāo)準(zhǔn)化和統(tǒng)一，也需要技術(shù)被折疊，不然就會造成一種資源過剩帶來的浪費(fèi)。

他提到，UC伯克利大學(xué)的明星實(shí)驗(yàn)室RISELab曾打造出很多新穎的技術(shù)工具，比如高性能分布式執(zhí)行框架Ray。

其掌舵人Ion Stoica教授在一次分享中提到“統(tǒng)一是它們成功的關(guān)鍵”。

DataLab這次的工作其實(shí)也是如此。

它的意義在于提供了一個“數(shù)據(jù)+操作”的統(tǒng)一框架，讓未來很多事情都可以轉(zhuǎn)化成兩件事：

定義/引入一個新的數(shù)據(jù)類型；

定義/引入一個新的數(shù)據(jù)操作（比如現(xiàn)在火熱的Prompt Learning，本質(zhì)上就是重構(gòu)數(shù)據(jù)）。

由此，研究者和開發(fā)者就可以有一個統(tǒng)一的入口去進(jìn)行他們需要的各種數(shù)據(jù)分析與操作。

在DataLab里，不同數(shù)據(jù)類型、操作類型都被標(biāo)準(zhǔn)化，其目的就是讓用戶在前人已經(jīng)解決的事情上不要再浪費(fèi)時間，而是使用已經(jīng)有的技術(shù)去探索新的技術(shù)發(fā)展。

當(dāng)然，如果再深入一點(diǎn)，劉鵬飛表示創(chuàng)建DataLab還源于一股內(nèi)在驅(qū)動力：

如何讓自己做的事情能夠在推動人類社會生產(chǎn)力發(fā)展上扮演一些重要的角色。

事實(shí)上，劉鵬飛也不是第一次為開發(fā)者、研究人員們打造便利的“小工具”了。

比如幫助開發(fā)者提出創(chuàng)新學(xué)術(shù)idea的輔助工具ExplainaBoard。

還有可自動生成論文評審結(jié)果的Demo網(wǎng)站ReviewAdvisor，只需要上傳PDF論文，即可自動生成評審結(jié)果。

哦對了，劉鵬飛還會在知乎上分享自己在NLP方面的一些研究心得。

比如這篇《近代自然語言處理技術(shù)發(fā)展的“第四范式”》就曾在網(wǎng)上引起過不小的反響。

感興趣的童鞋，歡迎移步大佬知乎圍觀~

DataLab地址：

http://datalab.nlpedia.ai/

GitHub地址：

https://github.com/ExpressAI/DataLab/

劉鵬飛知乎：

https://www.zhihu.com/people/liu-peng-fei-65-23/posts

獨(dú)家推薦

新聞排行

這款迷你主機(jī)太值得入手了 2999元竟配12代標(biāo)壓i7+32GB大內(nèi)存_天天視點(diǎn)

中國電競國家集訓(xùn)隊(duì)杭州亞運(yùn)會名單公布

環(huán)球熱消息：因雷達(dá)進(jìn)場控制系統(tǒng)發(fā)生火災(zāi) 美國華盛頓特區(qū)所有機(jī)場航班停飛

800元左右的迷你主機(jī) 到底能不能買？

不到4500元的RTX4050游戲本簡直不要太香錯過等一年全球熱訊

瓦格納雇傭兵集團(tuán)人員從俄羅斯南部兩個州撤離

使用更穩(wěn)定！戴爾筆記本折扣價3399元_重點(diǎn)聚焦

為什么要買大內(nèi)存筆記本 16GB對比32GB測試結(jié)果一目了然當(dāng)前熱點(diǎn)

世界視訊！差價500元！16GB和32GB內(nèi)存該如何選擇？實(shí)際應(yīng)用實(shí)測告訴你答案

蘋果教育優(yōu)惠補(bǔ)貼力度巨大！ MacBook Air 2022款只要8249！

給研究思路就能推薦數(shù)據(jù)集，CMU博士后等人推出NLP數(shù)據(jù)處理神器

獨(dú)家推薦

中興通訊服務(wù)器存儲產(chǎn)品總經(jīng)理郭樹波：打造極致算力做綠色算力主力軍

中國工程院院士李培根：數(shù)字孿生應(yīng)用是下一代智能制造的最鮮明特點(diǎn)之一

1—5月我國軟件業(yè)務(wù)收入43238億元同比增長13.3%

華為供應(yīng)鏈公司：已向華為Mate 60高端旗艦手機(jī)供貨

新聞排行

給研究思路就能推薦數(shù)據(jù)集，CMU博士后等人推出NLP數(shù)據(jù)處理神器

獨(dú)家推薦

中興通訊服務(wù)器存儲產(chǎn)品總經(jīng)理郭樹波：打造極致算力 做綠色算力主力軍

中國工程院院士李培根：數(shù)字孿生應(yīng)用是下一代智能制造的最鮮明特點(diǎn)之一

1—5月我國軟件業(yè)務(wù)收入43238億元 同比增長13.3%

華為供應(yīng)鏈公司：已向華為Mate 60高端旗艦手機(jī)供貨

新聞排行

中興通訊服務(wù)器存儲產(chǎn)品總經(jīng)理郭樹波：打造極致算力做綠色算力主力軍

1—5月我國軟件業(yè)務(wù)收入43238億元同比增長13.3%