(CWW)4月17日上午消息,隨著數(shù)據(jù)井噴、算法進(jìn)步以及算力的突破,效果好、泛化能力強(qiáng)、通用性強(qiáng)的預(yù)訓(xùn)練大模型(簡(jiǎn)稱“大模型”),已成為人工智能發(fā)展的新方向。近日,在2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”決賽現(xiàn)場(chǎng),百度首次將文心大模型能力向公眾開(kāi)放,讓每一位對(duì)AI感興趣的人,都能夠自上手使用大模型進(jìn)行創(chuàng)意設(shè)計(jì)開(kāi)發(fā)。
決賽現(xiàn)場(chǎng),百度集團(tuán)副總裁吳甜出席并圍繞大模型行業(yè)趨勢(shì)、產(chǎn)業(yè)價(jià)值、落地成果,分享了百度文心大模型的進(jìn)展。在與新浪科技等媒體溝通中,吳甜指出,數(shù)據(jù)、算法、算力的發(fā)展,為人工智能技術(shù)帶來(lái)了新的機(jī)遇,預(yù)訓(xùn)練大模型正驅(qū)動(dòng)著人工智能的規(guī)?;瘧?yīng)用,今年是文心大模型應(yīng)用落地關(guān)鍵年。
大模型正驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用
近年來(lái),國(guó)內(nèi)外科技巨頭如谷歌、微軟、英偉達(dá)、百度等,紛紛在AI大模型領(lǐng)域展開(kāi)相應(yīng)探索。頻頻獲得國(guó)內(nèi)外科技巨頭關(guān)注的背后,大模型真正的魅力在于——人工智能作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,它需要在各行各業(yè)深度地綁定融合,才能真正成為驅(qū)動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵力量。
然而,受制于不同行業(yè)規(guī)則迥異,以及支撐特定場(chǎng)景AI模型訓(xùn)練的數(shù)據(jù)獲取難、算力及人力成本高等因素,目前大多數(shù)的人工智能技術(shù),往往只能被少數(shù)企業(yè)開(kāi)發(fā)并用于解決特定領(lǐng)域問(wèn)題,難以進(jìn)行場(chǎng)景遷移和規(guī)?;瘡?fù)制,通用性和普適效果差。
大模型的出現(xiàn),大幅降低了人工智能的應(yīng)用門(mén)檻。其通過(guò)集中提供通用算法模型,打造技術(shù)底座,讓大多數(shù)企業(yè)能夠“站在巨人的肩膀上”,使標(biāo)注數(shù)據(jù)更少、開(kāi)發(fā)效率更高、應(yīng)用成本更低。
據(jù)吳甜介紹,目前百度文心大模型已成為產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型,包含NLP(自然語(yǔ)言理解)大模型、CV(計(jì)算機(jī)視覺(jué))大模型、跨模態(tài)大模型,既有基礎(chǔ)通用的大模型,也包含面向重點(diǎn)領(lǐng)域、重點(diǎn)任務(wù)的大模型,以及豐富的工具與平臺(tái)。其中,多個(gè)大模型達(dá)全球領(lǐng)先水平,例如全球首個(gè)百億參數(shù)中英文對(duì)話大模型PLATO-XL、首個(gè)聚焦中英文場(chǎng)景大規(guī)模 OCR 結(jié)構(gòu)化預(yù)訓(xùn)練模型 VIMER – StrucText等。
與此同時(shí),為進(jìn)一步降低AI應(yīng)用難度,文心大模型還通過(guò)與百度飛槳等開(kāi)源框架結(jié)合,為開(kāi)發(fā)者提供了成套的工具平臺(tái),配套易上手的大模型開(kāi)發(fā)、輕量化、部署工具,讓各行各業(yè)的開(kāi)發(fā)者都能低門(mén)檻地實(shí)現(xiàn)AI的應(yīng)用。
“百度大模型與國(guó)產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造了自主創(chuàng)新的AI底座,真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值。”吳甜表示。
今年是大模型產(chǎn)業(yè)落地關(guān)鍵年
據(jù)吳甜介紹,百度文心大模型的誕生可追溯到2019年3月,當(dāng)時(shí)百度發(fā)布的中國(guó)首個(gè)正式開(kāi)放的預(yù)訓(xùn)練模型,便是文心大模型的ERNIE1.0版本。該模型不斷升級(jí)并取得突破,2021年7月,作為首個(gè)在百億級(jí)預(yù)訓(xùn)練模型中引入大規(guī)模知識(shí)圖譜的模型,ERNIE 3.0刷新了五十多個(gè)中文NLP任務(wù)基準(zhǔn)。2021年12月,ERNIE 3.0升級(jí)為全球首個(gè)知識(shí)增強(qiáng)千億大模型,模型數(shù)量突破2600億。
從行業(yè)角度來(lái)看,大模型的參數(shù)規(guī)模是評(píng)估一個(gè)模型好壞的關(guān)鍵指標(biāo),參數(shù)越大一般來(lái)說(shuō)意味著大模型具備更多的能力,泛化性、通用性也更加強(qiáng)。目前,文心大模型參數(shù)規(guī)模達(dá)到2600億?!皬氖畠|級(jí)參數(shù)到千億級(jí),可以明確看到模型規(guī)模增長(zhǎng)和訓(xùn)練數(shù)據(jù)增加帶來(lái)了顯著效果提升?!眳翘鸨硎?。
當(dāng)然,一味地比拼參數(shù),并不是衡量大模型優(yōu)劣的唯一標(biāo)準(zhǔn)。模型質(zhì)量、算力大小等軟硬件協(xié)同能力,以及大模型的工程落地能力,也是重要的評(píng)價(jià)維度。
據(jù)吳甜介紹,文心大模型最大的特點(diǎn)是“知識(shí)增強(qiáng)”。傳統(tǒng)大模型只從海量的文本中學(xué)習(xí),只能死記硬背文本的規(guī)律,并不能從本質(zhì)上理解世界是怎樣運(yùn)行的,在具體應(yīng)用時(shí),一些涉及邏輯推理和認(rèn)知的任務(wù)表現(xiàn)較差。為彌補(bǔ)這一缺點(diǎn),百度引入了知識(shí)圖譜,通過(guò)“知識(shí)增強(qiáng)”的方法,將數(shù)據(jù)與知識(shí)融合,提升了文心大模型的通用性。
在落地運(yùn)用方面,目前文心大模型已大規(guī)模應(yīng)用于百度內(nèi)部的各類產(chǎn)品,包含搜索、信息流、小度智能屏、百度地圖等。與此同時(shí),文心大模型通過(guò)飛槳開(kāi)源開(kāi)放平臺(tái)、百度智能云等,已賦能到工業(yè)、能源、金融、通信等行業(yè),個(gè)人、企業(yè)開(kāi)發(fā)者數(shù)量已超過(guò)6萬(wàn)。
“在保險(xiǎn)領(lǐng)域應(yīng)用中,文心大模型的智能解析能力,能使文本處理效率提升30倍;在人力資源領(lǐng)域應(yīng)用中,文心大模型能實(shí)現(xiàn)候選人信息智能分類,模型識(shí)別準(zhǔn)確率達(dá)到99%?!眳翘鸨硎?,據(jù)他介紹,今年是文心大模型產(chǎn)業(yè)落地關(guān)鍵年,未來(lái)百度還將不斷去降低門(mén)檻,讓這一系列的創(chuàng)新技術(shù)能普惠到更多的人與行業(yè)。
在2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”決賽現(xiàn)場(chǎng),百度開(kāi)放了ERNIE 3.0的能力,讓每位對(duì)AI感興趣的人,都能夠親自上手使用大模型進(jìn)行創(chuàng)意開(kāi)發(fā)。據(jù)介紹,該比賽自2021年10月正式開(kāi)啟,目前已吸引近2000名選手參與,收集超過(guò)300份創(chuàng)意方案。
關(guān)鍵詞: 通信世界網(wǎng) AI規(guī)?;?/a> 文心大模型