国产精品一区二区麻豆蜜桃,国产91久久综合,国产亚洲精品久久久久的角色

SDI精品解讀系列11-1

《量子位硬科技深度產(chǎn)業(yè)報告-虛擬數(shù)字人》報告。

--關(guān)于報告--

該報告是由量子位出品，通過技術(shù)背景及產(chǎn)業(yè)現(xiàn)狀篇深入分析虛擬數(shù)字人市場規(guī)模、發(fā)展現(xiàn)狀、細分場景及產(chǎn)業(yè)瓶頸等。SDI將持續(xù)對該報告進行摘要分享，供您參閱。

文章太長？虛擬數(shù)字人為您播報！

一、虛擬數(shù)字人定義

虛擬數(shù)字人指存在于非物理世界中，由計算機圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等計算機手段創(chuàng)造及使用，并具有多重人類特征（外貌特征、人類表演能力、人類交互能力等）的綜合產(chǎn)物。市面上也多將其稱為為虛擬形象、虛擬人、數(shù)字人等，代表性的細分應(yīng)用包括虛擬助手、虛擬客服、虛擬偶像/主播等。

其具體特征可拆分為“虛擬”、“數(shù)字”及“人”三個部分。

虛擬—存在于非物理世界中，不同場景實現(xiàn)難度不同

目前，虛擬數(shù)字人主要以圖片、視頻、實時直播、實時動畫等方式存在于電子屏中，如APP、小程序、軟硬一體顯示設(shè)備。在未來，VR設(shè)備與全息投影也將成為其重要存在方式。

數(shù)字—依托多項技術(shù)存在，相關(guān)技術(shù)成熟成為其發(fā)展重要推動力

虛擬數(shù)字人是典型的多技術(shù)綜合產(chǎn)物。近年的發(fā)展來源于CG（Computer Graphics，利用計算機進行視覺設(shè)計和生產(chǎn)）、語音識別、圖像識別、動捕等相關(guān)技術(shù)的共同成熟。

人 — 在外表、行為、交互行為等方面高度擬人化，外在表現(xiàn)和交互效果已成為核心發(fā)展路線

二、虛擬數(shù)字人技術(shù)實現(xiàn)

從技術(shù)層面來看，虛擬數(shù)字人可以分為真人驅(qū)動型和計算驅(qū)動型。

真人驅(qū)動型技術(shù)流程：

1. 形象設(shè)計及建模；2. 建模綁定；3. 表演捕捉；4. 驅(qū)動及渲染；5. 生成內(nèi)容，進行互動。

這種技術(shù)思路可以看作是傳統(tǒng)影視制作中，CG技術(shù)的進一步延續(xù)。近年來主要的技術(shù)突破在于動作捕捉環(huán)節(jié)。隨著圖像識別技術(shù)，姿勢、表情等識別算法的進步，普通攝像頭實現(xiàn)較為精準的驅(qū)動（如iPhone 12攝像頭已可支持簡單的動作捕捉），顯著降低了精細虛擬內(nèi)容生成的門檻。

在計算驅(qū)動型中，虛擬數(shù)字人的語音表達、面部表情、具體動作將主要通過深度學(xué)習(xí)模型的運算結(jié)果實時或離線驅(qū)動，在渲染后實現(xiàn)最終效果。計算驅(qū)動的虛擬數(shù)字人最終效果受到語音合成（語音表述在韻律、情感、流暢度等方面是否符合真人發(fā)聲習(xí)慣）、 NLP技術(shù)（與使用者的語言交互是否順暢、是否能夠理解使用者需求）、語音識別（能否準確識別使用者需求）等技術(shù)的共同影響。

計算驅(qū)動型技術(shù)流程：

設(shè)計形象，掃描真人形態(tài)及表演、采集驅(qū)動數(shù)據(jù)；

形象建模，進行綁定；

訓(xùn)練各類驅(qū)動模型：決定最終效果的核心步驟；

內(nèi)容制作：基于輸入的語音（或由輸入文本轉(zhuǎn)化的語音），預(yù)測唇動、表情等參數(shù)；

進行渲染，生成最終內(nèi)容。直播時進行實時渲染。

當判定技術(shù)中的核心要素時，我們需要回歸到虛擬數(shù)字人的核心價值，也即前面所提及的“擬人化”，這需要虛擬數(shù)字人在形象或交互上具有技術(shù)優(yōu)勢。在技術(shù)層面主要體現(xiàn)為以下三點：

CG建模/圖像遷移技術(shù)影響外觀呈現(xiàn)：體現(xiàn)為虛擬數(shù)字人外觀的擬人程度；

NLP交互技術(shù)影響交互體驗：以對話能力為核心；

CV等深度學(xué)習(xí)模型影響驅(qū)動效果：能否呈現(xiàn)自然的面部表情變動、肢體變動等；

關(guān)鍵詞：計算驅(qū)動數(shù)字人時代起航虛擬數(shù)字人深度學(xué)習(xí)