人類在疫情期間,對(duì)技術(shù)產(chǎn)生了感情。
人類彼此之間變得隔膜,不信任,但是加深了對(duì)技術(shù)的依賴;有些人對(duì)技術(shù)如此地信任,以至于激進(jìn)地想建立起完全自治的數(shù)字世界。
或者說(shuō)顛倒虛擬與現(xiàn)實(shí)。數(shù)字世界才是真實(shí)的、美好的。
數(shù)字人(Digital People)開始涌入元宇宙。他們也被稱為虛擬人,以數(shù)字形式存在,往往栩栩如生,甚至能讓真實(shí)人類感覺到情緒與人格。他們成為了連接人與機(jī)器的互動(dòng)界面。
發(fā)達(dá)和即將發(fā)達(dá)的經(jīng)濟(jì)體,普遍面臨人口崩潰,但機(jī)器人和數(shù)字人開始被接生和豢養(yǎng)。
創(chuàng)造他們的初創(chuàng)企業(yè),正在受到風(fēng)險(xiǎn)資本的追捧。軟銀愿景基金領(lǐng)投了新西蘭初創(chuàng)公司靈魂機(jī)器(SoulMachines)的B1輪,金額高達(dá)7000萬(wàn)美元;次世文化獲得了紅杉中國(guó)的獨(dú)家投資,其半年來(lái)的第三輪融資。
數(shù)字人大量誕生,背后是元宇宙的熱炒,更重要的是底層技術(shù)的進(jìn)步與商業(yè)化場(chǎng)景的落地。去年1月初,百度研究院預(yù)測(cè)稱,結(jié)合知識(shí)圖譜和深度學(xué)習(xí),以及3D 建模、情緒識(shí)別、智能推薦等技術(shù),數(shù)字人將在2021年大量出現(xiàn),并在服務(wù)行業(yè)大放異彩。
剛剛閉幕的冬奧會(huì),就采用了手語(yǔ)播報(bào)數(shù)字人。燃麥科技推出的數(shù)字偶像AYAYI,不僅以數(shù)字員工身份入職阿里,還拿下了LV、歐萊雅、保時(shí)捷等品牌的代言。數(shù)字人首先是數(shù)字喉舌。
(數(shù)字手語(yǔ)播報(bào)員翻譯測(cè)試,來(lái)源:央視)
另一大場(chǎng)景則是客戶服務(wù)。靈魂機(jī)器試圖在日益數(shù)字化的服務(wù)行業(yè)中,提供能夠與人類用戶情景化互動(dòng)的數(shù)字勞動(dòng)力。該公司發(fā)布了一份白皮書,提到新冠疫情以來(lái),C端用戶需求更多更好的遠(yuǎn)程教育和零接觸服務(wù),B端客戶則希望既能提供差異化服務(wù),增加用戶黏性并提升轉(zhuǎn)化率,但同時(shí)又希望能降低成本。
與頻繁占線的人工服務(wù)不同,數(shù)字勞動(dòng)力可以起早貪黑地干活,在絕大多數(shù)智能設(shè)備上,以多種語(yǔ)言提供規(guī)模化的一對(duì)一服務(wù)。Gartner稱,在2021年,全球15%的客服交互由人工智能處理,比2017年增加了4倍。與基于文本或音頻的人工智能客服,數(shù)字人在互動(dòng)中展示的面部表情與肢體動(dòng)作更具親和力。
靈魂機(jī)器已經(jīng)攬獲了多家客戶,并初步驗(yàn)證了其商業(yè)價(jià)值。雀巢、西太平洋銀行與世界衛(wèi)生組織等,已經(jīng)通過(guò)該公司的技術(shù)創(chuàng)建了數(shù)字人。靈魂機(jī)器稱,一位能與年輕女性交流的皮膚問(wèn)題的數(shù)字護(hù)膚顧問(wèn)(不用分成的數(shù)字李佳琦?),讓該網(wǎng)站的轉(zhuǎn)化率提高了4.6倍。
數(shù)字人的基因,需要多模態(tài)算法,也就是同時(shí)處理或輸出聽覺、視覺與知識(shí)邏輯等相關(guān)的信息。人物建模與互動(dòng)表達(dá),需要CGI(計(jì)算機(jī)生成圖像)、自然語(yǔ)言處理與語(yǔ)音合成的支持;對(duì)互動(dòng)內(nèi)容的捕捉,需要計(jì)算機(jī)視覺與語(yǔ)音識(shí)別技術(shù)。
當(dāng)用戶與數(shù)字人互動(dòng)時(shí),前者的面部表情與情緒反應(yīng),都會(huì)在脫敏的前提下收集起來(lái),用于訓(xùn)練與優(yōu)化算法,變成數(shù)字人的“靈魂“。
靈魂機(jī)器引入了認(rèn)知科學(xué)與神經(jīng)科學(xué),幫助算法理解真實(shí)人類的聲音語(yǔ)調(diào)、節(jié)奏和面部表情變化的含義。
人類急不可待地想擁有這些永不躺平的數(shù)字人。盡管諸多數(shù)字人技術(shù)初創(chuàng)公司,紛紛勾勒出了其技術(shù)框架與商業(yè)模式,但這項(xiàng)技術(shù)還需要很長(zhǎng)一段路要走。為了衡量技術(shù)進(jìn)展,靈魂機(jī)器參照自動(dòng)駕駛技術(shù)L0-L5的分級(jí)模式,將數(shù)字人技術(shù)根據(jù)人類介入程度與系統(tǒng)互動(dòng)性,分為L(zhǎng)0-L5等階段。
L0級(jí)被稱為無(wú)自主動(dòng)畫,由人類提前錄制,系統(tǒng)再向用戶重復(fù)播放公司提供的腳本。L1級(jí)的動(dòng)畫,類似電影《阿凡達(dá)》,虛擬人物的肢體語(yǔ)言來(lái)源于對(duì)真實(shí)演員表演動(dòng)作的捕捉,這套動(dòng)作預(yù)先針對(duì)某個(gè)特定問(wèn)題設(shè)計(jì),系統(tǒng)根據(jù)用戶選定的問(wèn)題呈現(xiàn)動(dòng)畫。L2級(jí)的動(dòng)畫,不再需要真實(shí)演員,而由算法根據(jù)指定腳本生成,但用戶互動(dòng)仍較為受限。
上述三個(gè)級(jí)別,動(dòng)畫呈現(xiàn)與人機(jī)交互都提前預(yù)設(shè),人類主導(dǎo)。目前市場(chǎng)上的數(shù)字人技術(shù)應(yīng)用場(chǎng)景,多數(shù)都劃入了為L(zhǎng)0至L2級(jí)。
實(shí)際上,這就是目前自動(dòng)駕駛所達(dá)到的水平。
L3至L5級(jí)是實(shí)時(shí)的、動(dòng)態(tài)生成的、內(nèi)容感知的動(dòng)畫。隨著級(jí)別的提升,對(duì)系統(tǒng)自由度的要求會(huì)更高。靈魂機(jī)器認(rèn)為自己目前處于L3級(jí)別,也就是指導(dǎo)性動(dòng)畫。這個(gè)級(jí)別的動(dòng)畫由算法自動(dòng)生成,人類定義動(dòng)畫內(nèi)容的范圍,但不預(yù)設(shè)具體問(wèn)題;系統(tǒng)能向人類報(bào)告用戶互動(dòng)中出現(xiàn)的異常。這個(gè)級(jí)別的產(chǎn)品,類似于數(shù)字客服,在互動(dòng)中為用戶提供標(biāo)準(zhǔn)化的咨詢服務(wù)。
L4級(jí)被視為目標(biāo)導(dǎo)向的動(dòng)畫,L5級(jí)被視為價(jià)值導(dǎo)向的動(dòng)畫。前者的產(chǎn)品形態(tài)更類似于數(shù)字金融投顧,系統(tǒng)要在互動(dòng)中學(xué)習(xí),為客戶實(shí)現(xiàn)投資目標(biāo);后者則更類似于偏遠(yuǎn)地區(qū)的數(shù)字醫(yī)護(hù)人員,系統(tǒng)要嘗試自主學(xué)習(xí),完全根據(jù)患者輸入給出個(gè)性化醫(yī)護(hù)建議。
L4與L5目前尚無(wú)公司能夠?qū)崿F(xiàn),它們有賴于通用人工智能技術(shù)(AGI)的進(jìn)步。狹義人工智能,只能完成特定任務(wù),解決特定問(wèn)題,通用人工智能類似人類,能夠處理全局性任務(wù)。但這項(xiàng)技術(shù)在Garnter技術(shù)成熟度曲線上,尚處于起步階段。
在元宇宙中,很多應(yīng)用場(chǎng)景所提供的客戶服務(wù),可以由數(shù)字勞動(dòng)力來(lái)完成,而不需要真實(shí)人類的數(shù)字分身來(lái)扮演。這些數(shù)字勞動(dòng)力足夠自主,不斷與真實(shí)人類互動(dòng),推動(dòng)AGI技術(shù)的進(jìn)步。
靈魂機(jī)器自稱是AGI技術(shù)公司,并堅(jiān)信這就是未來(lái)。
▽
重磅報(bào)告《看DAO 2022》
▽
關(guān)鍵詞: 真正的數(shù)字人 離誕生還差一個(gè)通用人工智能 新冠疫情