大模型時代的數(shù)據(jù)標注:從勞動密集向技能密集升級

發(fā)布時間:2023-06-25 08:22:17  |  來源:天翼智庫  

(CWW)算力、算法和數(shù)據(jù)是人工智能的“三駕馬車”。過去的十多年,算力、算法、數(shù)據(jù)等技術(shù)的創(chuàng)新和迭代,都取得了“大爆炸”式發(fā)展。ChatGPT橫空出世背后,有海量訓練數(shù)據(jù)、人工標注指令微調(diào)以及基于人工反饋的強化學習。未來,人工智能在垂直場景落地,需要大量經(jīng)過標注處理的數(shù)據(jù)完成算法訓練?,F(xiàn)階段,數(shù)據(jù)標注屬于勞動密集型產(chǎn)業(yè),人工智能尤其是大模型的崛起,將數(shù)據(jù)標注推向AI輔助標注、自動標注,數(shù)據(jù)標注進入技能密集時代。


(資料圖片僅供參考)

我國數(shù)據(jù)標注行業(yè)現(xiàn)狀及特點

數(shù)據(jù)標注是指借助特定軟件標注工具,將圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容進行分類、標準特征標簽等(例如圖片屬于“貓”、“狗”、“鳥”等分類),使其易于被機器學習算法可理解和快速處理。近年來,隨著人工智能的快速發(fā)展,數(shù)據(jù)標注需求激增,我國數(shù)據(jù)標注市場呈現(xiàn)如下特點。

一是在需求和政策共推下高速發(fā)展。2022年我國數(shù)據(jù)產(chǎn)量已達8.1ZB,同比增長22.7%,全球占比10.5%,位居世界第二,數(shù)據(jù)已成為我國重要的資源稟賦優(yōu)勢。與此同時,我國數(shù)據(jù)要素市場化配置進程加速,政策加持國內(nèi) AI 產(chǎn)業(yè)發(fā)展,市場對高質(zhì)量數(shù)據(jù)標注需求激增。根據(jù)艾瑞咨詢、華經(jīng)產(chǎn)業(yè)研究院數(shù)據(jù),2021年我國數(shù)據(jù)標注市場規(guī)模為43至44億元,2025年有望突破百億元。此外,數(shù)據(jù)標注是勞動力資源密集省市政府解決就業(yè)難的抓手,多個省市紛紛出臺政策支持數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展或建立數(shù)據(jù)標注產(chǎn)業(yè)園,如山西省出臺了《山西省數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展規(guī)劃(2019-2025 年)》、《山西省加快數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展的實施意見》、《山西人工智能基礎數(shù)據(jù)產(chǎn)業(yè)專項資金管理辦法》等,山西、河南、四川、貴州等省已形成了眾多數(shù)據(jù)標注小鎮(zhèn),全國范圍來看,集數(shù)據(jù)采集、存儲、標注、服務等于一體的AI基礎數(shù)據(jù)相關產(chǎn)業(yè)持續(xù)壯大,進入高速發(fā)展期。

二是AI頭部企業(yè)紛紛入局并贏得競爭優(yōu)勢。數(shù)據(jù)標注市場有兩類參與者,一類是專業(yè)的第三方數(shù)據(jù)標注公司,如Testin云測、澳鵬appen、海天瑞聲、數(shù)據(jù)堂、龍貓數(shù)據(jù)、曼孚科技等;一類是AI科技公司內(nèi)部的標注部門。兩類數(shù)據(jù)標注力量都在壯大,第二類發(fā)展更快,越來越多的AI頭部企業(yè)自建標注工具平臺和標注基地,如百度在山西建立人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地、推出數(shù)據(jù)標注開放平臺,京東在山東設立京東眾智大數(shù)據(jù)標注助殘基地、推出 Wise 開放標注平臺,字節(jié)跳動在全國設立了六個標注基地。這些AI頭部企業(yè)資本雄厚、數(shù)據(jù)需求旺盛、技術(shù)實力強,后發(fā)優(yōu)勢顯著,百度、京東已進入數(shù)據(jù)標注市場第一陣營。

三是市場需求以定制化服務為主。相關數(shù)據(jù)顯示,2021年我國數(shù)據(jù)標注及審核市場中定制化服務占比85.41%,而標準化的數(shù)據(jù)集產(chǎn)品僅占13.33%。這與AI在垂直場景深度落地需要與特定任務類型、特定應用場景相匹配的數(shù)據(jù)進行算法訓練。大模型時代下,“基礎模型+微調(diào)”有望成為 AI 開發(fā)新范式,微調(diào)是讓AI獲特定領域知識,并賦予其組織、應用知識的能力,可以預見,貼合垂直場景的高精準定制化數(shù)據(jù)標注服務在未來將是市場需求主流。

數(shù)據(jù)標注行業(yè)面臨的問題與挑戰(zhàn)

早期,市場對數(shù)據(jù)采集標注的要求較低,準入門檻低,行業(yè)內(nèi)云集了大量中小規(guī)模的服務商和靈活就業(yè)/兼職個人,數(shù)據(jù)標注領頭企業(yè)主要采用轉(zhuǎn)包、眾包模式提供服務,行業(yè)存在標注效率低下、數(shù)據(jù)質(zhì)量參差不齊、高技能人才不足、全程數(shù)據(jù)安全合規(guī)風險高等問題。

一是標注效率低下、數(shù)據(jù)質(zhì)量參差不齊。當前數(shù)據(jù)標注高度依賴人力,十分枯燥、耗費眼力體力,很多中小供應商缺少AI輔助標注、AI質(zhì)檢能力,標注師個人能力素質(zhì)直接影響標注效率和數(shù)據(jù)質(zhì)量,形成行業(yè)生產(chǎn)效率低下、數(shù)據(jù)質(zhì)量不均衡的局面。

二是高技能產(chǎn)業(yè)人才缺乏。從任務需求來看,以較為復雜的語音標注、計算機視覺標注為主,醫(yī)療醫(yī)藥、法律、金融、電力等專業(yè)數(shù)據(jù)集標注生產(chǎn),還對標注師的學科知識儲備有一定要求。從人才培養(yǎng)來說,人工智能訓練師新型崗位培養(yǎng)、專業(yè)設立并沒有受到社會重視,市場上缺乏經(jīng)過系統(tǒng)性訓練的高技能人才。

三是全程數(shù)據(jù)安全合規(guī)風險高。根據(jù)中國信通院報告,80%的安全風險發(fā)生在數(shù)據(jù)流通環(huán)節(jié)。從行業(yè)現(xiàn)狀來看,數(shù)據(jù)標注的鏈條較長,包括采集、標注、存儲、傳輸?shù)拳h(huán)節(jié),轉(zhuǎn)包模式下信息鏈條更長,黃賭毒/暴力信息過濾、隱私保護、數(shù)據(jù)不當使用等都是標注和審核企業(yè)面臨的難題。

數(shù)據(jù)標注行業(yè)存在的變化及趨勢

隨著人工智能技術(shù)在更多垂直應用場景落地深化,數(shù)據(jù)標注表現(xiàn)出以下幾個趨勢:

一是AI輔助標注、自動化數(shù)據(jù)標注成為新競爭力,助推行業(yè)從勞動密集轉(zhuǎn)向技術(shù)密集。從全球范圍來看,美國由于人力成本較高,較早使用機器替代人力,谷歌、微軟等互聯(lián)網(wǎng)巨頭都推出了自動標注系統(tǒng),Playment和Scale AI合作,為全球高分辨率 LiDAR傳感器制造商 Data 聯(lián)合開發(fā)了高級深度學習標注工具。在中國,用工管理日趨規(guī)范以及標注需求量的激增,純?nèi)斯俗⒃谛屎统杀旧系膬?yōu)勢將很快消失,使用AI賦能的自動標注能力與相關工具來提升效率和質(zhì)量,將逐漸成為數(shù)據(jù)標注企業(yè)提高市場競爭力、降本增效的利器。AI輔助標注、自動標注不僅提升了數(shù)據(jù)的產(chǎn)出效率,同時也在標注模型工具的迭代中打造出了完善的 AI 基礎設施,從而助推行業(yè)向技術(shù)密集轉(zhuǎn)型。

二是行業(yè)走向垂直化、定制化,門檻提高,市場集中度提升。隨著人工智能進入多元行業(yè)和場景落地階段,自動駕駛、醫(yī)療醫(yī)藥、小語種、法律、金融等有一定專業(yè)性要求的垂直場景將成為主要需求,帶動行業(yè)進一步朝著垂直化、定制化發(fā)展,專業(yè)性要求越來越高,市場準入門檻將顯著提高。同時,頭部的品牌數(shù)據(jù)服務商由于具備較強算法能力和穩(wěn)定訓練數(shù)據(jù)資源,有實力打造AI輔助標注、自動化標注平臺工具,標注效率、質(zhì)量和成本優(yōu)勢將凸顯。未來,品牌數(shù)據(jù)服務商和需求方自建的標注團隊將逐步替代中小供應商,行業(yè)市場集中度將顯著提升。如,2019年中小數(shù)據(jù)供應商的市場份額高達 47%,百度市場份額為11%,2022年百度的市場份額躍居到18%。

三是追求更高的數(shù)據(jù)質(zhì)量、安全性和隱私性。大部分算法在擁有足夠多普通標注數(shù)據(jù)的情況下,能夠?qū)蚀_率提升到 95%,但再提升到 99%甚至 99.9%,則需要高質(zhì)量數(shù)據(jù)。另一方面,海量原始數(shù)據(jù)的采集標注,涉及大量敏感數(shù)據(jù),如人臉、語音等內(nèi)容,隨著數(shù)據(jù)安全合規(guī)法律政策體系的完善和監(jiān)管升級,對數(shù)據(jù)的采集、標注、存儲、傳輸?shù)拿恳粋€環(huán)節(jié)的安全合規(guī)要求越來越高。因此,圍繞標注質(zhì)量和全流程數(shù)據(jù)安全合規(guī),建立一套完善的流程機制,并有技術(shù)工具保駕護航,就成為當下諸多數(shù)據(jù)標注服務商著重建設發(fā)展的能力。

電信運營商的探索和機遇

電信運營商在數(shù)據(jù)資源的內(nèi)部場景化應用、外部產(chǎn)品化流通方面,主要使用結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)采集標注僅在客戶服務場景中的熱線話務、投訴及故障工單的智能打標,以及裝維流程中的現(xiàn)場作業(yè)規(guī)范管理等少數(shù)場景應用;外部產(chǎn)品化應用主要是視聯(lián)網(wǎng)產(chǎn)品的AI視頻分析識別,如明廚亮灶中對進入廚房區(qū)域的廚師服/帽、口罩的穿戴著裝,抽煙、玩手機、老鼠檢測、外來人員識別等實時告警等。整體來說,電信運營商的語音標注、計算機視覺標注處于探索期,尚未像百度、京東一樣形成專業(yè)化標注生產(chǎn)能力,但值得肯定的是,在為數(shù)不多的探索中運營商選擇了AI輔助標注、自動化標注路徑。當下,AI大模型炙手可熱,催化數(shù)據(jù)采標需求加速釋放,電信運營商可審視如下機遇點。

一是面向垂直行業(yè)的AI輔助標注、自動化標注工具及解決方案。一方面是我國尚未形成AI輔助標注、自動化標注的領先產(chǎn)品,另一方面是對數(shù)據(jù)安全要求嚴格或期望降低數(shù)據(jù)生產(chǎn)成本的企業(yè),紛紛從選擇專業(yè)標注公司駐場服務到自購通用標注工具、模型訓練工具進行適配優(yōu)化,自行完成數(shù)據(jù)標注,這給專注于某個垂直領域的基礎數(shù)據(jù)服務商帶來了機會:針對細分領域提供自動化標注工具或解決方案。

二是面向數(shù)據(jù)采集標注全流程的數(shù)據(jù)安全合規(guī)基礎設施。AI基礎數(shù)據(jù)生產(chǎn)涉及到采集、存儲、標注、傳輸?shù)拳h(huán)節(jié),市場需要低成本的覆蓋全流程的數(shù)據(jù)可信生產(chǎn)流通環(huán)境,運營商在云網(wǎng)數(shù)字基礎設施中增加諸如區(qū)塊鏈、前沿密碼等技術(shù),將產(chǎn)生新的優(yōu)勢。

三是垂直行業(yè)的專業(yè)數(shù)據(jù)集生產(chǎn)。運營商長期深耕金融、政法、公安、醫(yī)療、交通、教育等行業(yè)解決方案,在眾多垂直領域形成了產(chǎn)業(yè)生態(tài),具有將企業(yè)數(shù)據(jù)與垂直領域的跨組織、跨區(qū)域數(shù)據(jù)資源融合匯聚,提供專業(yè)數(shù)據(jù)集的潛能。


關鍵詞:

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com