国产精品美女久久久久9999,91se在线观看一区二区

今天（25日），上海人工智能實驗室聯(lián)合商湯科技發(fā)布通用視覺開源平臺OpenGVLab，面向?qū)W術界和產(chǎn)業(yè)界開放其超高效預訓練模型、超大規(guī)模公開數(shù)據(jù)集，以及業(yè)內(nèi)首個針對通用視覺模型的評測基準。

此舉將為全球開發(fā)者提升各類下游視覺任務模型訓練提供重要支持，推動AI技術的規(guī)?；瘧寐涞兀⒋龠M人工智能基礎研究及生態(tài)建設的快速發(fā)展。

此次發(fā)布的通用視覺開源平臺OpenGVLab不僅包含超高效預訓練模型，同時包括千萬級精標注、十萬級標簽量的公開數(shù)據(jù)集；同步公布的評測基準則將便于開發(fā)者對不同通用視覺模型的性能進行橫向評估和持續(xù)調(diào)優(yōu)。

上海人工智能實驗室相關負責人表示：

開源是一項意義非凡的工作，人工智能技術的迅速發(fā)展離不開全球研究開發(fā)人員十余年來的開源共建，共享共用。

希望通過發(fā)布 OpenGVLab 開源平臺，幫助業(yè)界更好地探索和應用通用視覺方法，促進體系化解決 AI 發(fā)展中數(shù)據(jù)、效率、泛化、認知和安全等諸多瓶頸問題，為推動人工智能科研創(chuàng)新、產(chǎn)業(yè)發(fā)展作出貢獻。

展現(xiàn)極強的通用性

打麻將、競速摩托、香檳、熊貓……或許人能輕松看出圖片的內(nèi)容，但人工智能不一定可以。

雖然人工智能已經(jīng)強大到可以識別萬物，但很多AI模型只能完成單一的任務，比如識別單一的物體，或者識別風格較為統(tǒng)一的照片，如果換一種類型或者風格，就愛莫能助。

去年11月，上海人工智能實驗室聯(lián)合商湯科技、香港中文大學和上海交通大學發(fā)布通用視覺技術體系“書生”（INTERN），很好地解決了這一問題——具備足夠的通用性和泛化能力。

通用視覺開源平臺OpenGVLab即是基于“書生”打造而成。其開源的預訓練模型具有超高的性能和通用性。

具體而言，相較于當前最強開源模型（OpenAI 于2021年發(fā)布的CLIP），OpenGVLab的模型可全面覆蓋分類、目標檢測、語義分割、深度估計四大視覺核心任務，在準確率和數(shù)據(jù)使用效率上均取得大幅提升。

OpenGVLab開源模型推理結果：左側為輸入的圖片，右側為識別出來的標簽

基于同樣的下游場景數(shù)據(jù)，開源模型在分類、目標檢測、語義分割及深度估計四大任務26個數(shù)據(jù)集上，平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。開源模型在分類、檢測、分割和深度估計中，僅用10%的下游訓練數(shù)據(jù)就超過了現(xiàn)有其他開源模型。

使用此模型，研究人員可以大幅降低下游數(shù)據(jù)采集成本，用極低的數(shù)據(jù)量，即可快速滿足多場景、多任務的AI模型訓練。OpenGVLab還提供多種不同參數(shù)量、不同計算量的預訓練模型，以滿足不同場景的應用。

開放千萬級精標注數(shù)據(jù)集

高性能的模型，離不開豐富數(shù)據(jù)集的訓練。

除了預訓練模型，以百億數(shù)據(jù)總量為基礎，上海人工智能實驗室構建了超大量級的精標注數(shù)據(jù)集，近期將進行數(shù)據(jù)開源工作。

超大量級的精標注數(shù)據(jù)集不僅整合了現(xiàn)有的開源數(shù)據(jù)集，還通過大規(guī)模數(shù)據(jù)圖像標注任務，實現(xiàn)了對圖像分類、目標檢測以及圖像分割等任務的覆蓋，數(shù)據(jù)總量級近7000萬。開源范圍涵蓋千萬級精標注數(shù)據(jù)集和十萬級標簽體系。

目前，圖像分類任務數(shù)據(jù)集已率先開源，后續(xù)還將開源目標檢測任務等更多數(shù)據(jù)集。

針對藝術作品，OpenGVLab預訓練模型展示出了強大的泛化能力，例如，針對這幅大熊貓畫作，模型不但“看”出了這是一張“毛筆畫”“水粉畫”，而且由于圖中的黑白色，模型還給出了“yin yang”（陰陽）的推測，這也體現(xiàn)了數(shù)據(jù)集標簽的豐富性

同時開放的還有總標簽量級達到十萬量級的超大標簽體系，不僅幾乎覆蓋了所有現(xiàn)有開源數(shù)據(jù)集，還在此基礎上擴充了大量細粒度標簽，涵蓋各類圖像中的屬性、狀態(tài)等，極大豐富了圖像任務的應用場景，顯著降低下游數(shù)據(jù)的采集成本。

此外，研究人員還可以通過自動化工具添加更多標簽，對數(shù)據(jù)標簽體系進行持續(xù)擴展和延伸，不斷提高標簽體系的細粒度，共同促進開源生態(tài)繁榮發(fā)展。

首個通用視覺評測基準

伴隨OpenGVLab的發(fā)布，上海人工智能實驗室還開放了業(yè)內(nèi)首個針對通用視覺模型的評測基準，彌補通用視覺模型評測領域的空白。

當前，行業(yè)中已有的評測基準主要針對單一任務、單一視覺維度設計，無法反映通用視覺模型的整體性能，難以用于橫向比較。全新的通用視覺評測基準憑借在任務、數(shù)據(jù)等層面的創(chuàng)新設計，可以提供權威的評測結果，推動統(tǒng)一標準上的公平和準確評測，加快通用視覺模型的產(chǎn)業(yè)化應用步伐。

在任務設計上，OpenGVLab提供的通用視覺評測基準創(chuàng)新地引入了多任務評測體系，可以從分類、目標檢測、語義分割、深度估計、行為識別等5類任務方向，對模型的通用性能進行整體評估。不僅如此，該評測基準新加了僅用測試數(shù)據(jù)集10%數(shù)據(jù)量的評測設定，可以有效評估通用模型在真實數(shù)據(jù)分布下的小樣本學習能力。在測試后，評測基準還會根據(jù)模型的評測結果給出相應的總分，方便使用者對不同的模型進行橫向評測。

隨著人工智能與產(chǎn)業(yè)融合的不斷深入，行業(yè)對人工智能的需求逐漸從單一任務向復雜的多任務協(xié)同發(fā)展，亟需構建開源、開放的體系，以滿足趨于碎片化和長尾化的海量應用需求。

OpenGVLab的開源，將幫助開發(fā)者顯著降低通用視覺模型的開發(fā)門檻，用更低成本快速開發(fā)用于成百上千種視覺任務、視覺場景的算法模型，高效實現(xiàn)對長尾場景的覆蓋，推動通用AI技術的規(guī)?；瘧?。

END

鸚鵡螺工作室

作者｜郜陽

圖片｜采訪對象供圖

編輯｜ Bryce

關鍵詞：看大熊貓畫作還能推測出陰陽通用視覺研究利器