SDI精品解讀系列11-1
《量子位硬科技深度產(chǎn)業(yè)報告-虛擬數(shù)字人》報告。
--關(guān)于報告--
該報告是由量子位出品,通過技術(shù)背景及產(chǎn)業(yè)現(xiàn)狀篇深入分析虛擬數(shù)字人市場規(guī)模、發(fā)展現(xiàn)狀、細分場景及產(chǎn)業(yè)瓶頸等。SDI將持續(xù)對該報告進行摘要分享,供您參閱。
文章太長?虛擬數(shù)字人為您播報!
一、虛擬數(shù)字人定義
虛擬數(shù)字人指存在于非物理世界中,由計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等計算機手段創(chuàng)造及使用,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產(chǎn)物。市面上也多將其稱為為虛擬形象、虛擬人、數(shù)字人等,代表性的細分應(yīng)用包括虛擬助手、虛擬客服、虛擬偶像/主播等。
其具體特征可拆分為“虛擬”、“數(shù)字”及“人”三個部分。
虛擬—存在于非物理世界中,不同場景實現(xiàn)難度不同
目前,虛擬數(shù)字人主要以圖片、視頻、實時直播、實時動畫等方式存在于電子屏中,如APP、小程序、軟硬一體顯示設(shè)備。在未來,VR設(shè)備與全息投影也將成為其重要存在方式。
數(shù)字—依托多項技術(shù)存在,相關(guān)技術(shù)成熟成為其發(fā)展重要推動力
虛擬數(shù)字人是典型的多技術(shù)綜合產(chǎn)物。近年的發(fā)展來源于CG(Computer Graphics,利用計算機進行視覺設(shè)計和生產(chǎn))、語音識別、圖像識別、動捕等相關(guān)技術(shù)的共同成熟。
人 — 在外表、行為、交互行為等方面高度擬人化,外在表現(xiàn)和交互效果已成為核心發(fā)展路線
二、虛擬數(shù)字人技術(shù)實現(xiàn)
從技術(shù)層面來看,虛擬數(shù)字人可以分為真人驅(qū)動型和計算驅(qū)動型。
真人驅(qū)動型技術(shù)流程:
1. 形象設(shè)計及建模;2. 建模綁定;3. 表演捕捉;4. 驅(qū)動及渲染;5. 生成內(nèi)容,進行互動。
這種技術(shù)思路可以看作是傳統(tǒng)影視制作中,CG技術(shù)的進一步延續(xù)。近年來主要的技術(shù)突破在于動作捕捉環(huán)節(jié)。隨著圖像識別技術(shù),姿勢、表情等識別算法的進步,普通攝像頭實現(xiàn)較為精準的驅(qū)動(如iPhone 12攝像頭已可支持簡單的動作捕捉),顯著降低了精細虛擬內(nèi)容生成的門檻。
在計算驅(qū)動型中,虛擬數(shù)字人的語音表達、面部表情、具體動作將主要通過深度學(xué)習(xí)模型的運算結(jié)果實時或離線驅(qū)動, 在渲染后實現(xiàn)最終效果。計算驅(qū)動的虛擬數(shù)字人最終效果受到語音合成(語音表述在韻律、情感、流暢度等方面是否符合真人發(fā)聲習(xí)慣)、 NLP技術(shù)(與使用者的語言交互是否順暢、是否能夠理解使用者需求)、語音識別(能否準確識別使用者需求)等技術(shù)的共同影響。
計算驅(qū)動型技術(shù)流程:
設(shè)計形象,掃描真人形態(tài)及表演、采集驅(qū)動數(shù)據(jù);
形象建模,進行綁定;
訓(xùn)練各類驅(qū)動模型:決定最終效果的核心步驟;
內(nèi)容制作:基于輸入的語音(或由輸入文本轉(zhuǎn)化的語音),預(yù)測唇動、表情等參數(shù);
進行渲染,生成最終內(nèi)容。直播時進行實時渲染。
當判定技術(shù)中的核心要素時,我們需要回歸到虛擬數(shù)字人的核心價值,也即前面所提及的“擬人化”,這需要虛擬數(shù)字人在形象或交互上具有技術(shù)優(yōu)勢。在技術(shù)層面主要體現(xiàn)為以下三點:
CG建模/圖像遷移技術(shù)影響外觀呈現(xiàn):體現(xiàn)為虛擬數(shù)字人外觀的擬人程度;
NLP交互技術(shù)影響交互體驗:以對話能力為核心;
CV等深度學(xué)習(xí)模型影響驅(qū)動效果:能否呈現(xiàn)自然的面部表情變動、肢體變動等;
關(guān)鍵詞: 計算驅(qū)動數(shù)字人時代起航 虛擬數(shù)字人 深度學(xué)習(xí)