她們的冬奧會解說,暖了千萬人的心

發(fā)布時間:2022-02-12 19:53:05  |  來源:騰訊網(wǎng)  

智東西(公眾號:zhidxcom)

作者 | 程茜

編輯 | 漠影

“武大靖最后一次沖刺!最后一個彎道,武大靖率先沖出彎道,沖過了終點!”2月5日,冬奧會第1個比賽日,中國短道速滑混合團體接力項目奪得首金!

細心的觀眾可能注意到,央視頻畫面中右下角有一個手語主播,更神奇的是,這個手語主播并不是真人,而是手語數(shù)字人——央視頻AI手語翻譯官聆語,為熟悉手語的聽障人士帶來了精彩“解說”。

▲央視頻AI手語翻譯官聆語解說短道速滑混合團體接力項目武大靖沖刺時刻

我們可以看到,聆語的手勢里包含了我們常見的數(shù)字“9”和“3”的手部動作,但與我們理解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人稱奇。

冬奧會開幕以來,冬奧會四金得主王濛再度沖上熱搜,這次的出圈方式是其“嘮嗑”式的解說。隨著“我的眼睛就是尺”等金句頻出,各路網(wǎng)友紛紛表示已被圈粉。足以見得,賽事解說在體育項目中的重要性。然而,大多數(shù)解說員都是通過聲音播報,導致一些聽力障礙人群無法感受解說的魅力,而手語主播的出現(xiàn)就有效彌補了這一難題。

騰訊AI手語翻譯官聆語上線央視頻、騰訊3D手語數(shù)字人小聰上線騰訊體育,為聽障人士帶來手語解說,感受冬奧賽場上的精彩瞬間。小聰、聆語,由騰訊PCG AI交互部聯(lián)合CSIG智能平臺產(chǎn)品部共同打造,與以往的3D AI合成主播不同,手語數(shù)字人通過手勢動作和表情,為聽障人士提供“無聲的溝通”。從技術上看,騰訊手語數(shù)字人基于騰訊多模態(tài)端到端生成模型,進行聯(lián)合建模及預測生成高準確率的動作、表情、唇動等序列,實現(xiàn)自然專業(yè)、易懂度高的手語效果。

近日,為了揭開手語數(shù)字人背后的黑科技,智東西采訪了騰訊PCG AI交互部手語數(shù)字人項目組負責人孟凡博,就手語翻譯的難點、騰訊手語數(shù)字人的技術邏輯,技術團隊在開發(fā)中遇到的難題等做了詳細介紹。

一、手語主播的三大技術優(yōu)勢,形象逼真、動作自然準確

讓我們仔細觀察一下下面動圖里的小聰,是不是感覺近似真人?并且在解說過程中,小聰?shù)念^和肩膀還會隨著手勢動作輕微擺動,手語動作流暢自然,再加上表情、口動等,細節(jié)也很到位。這些效果的實現(xiàn),都離不開AI、大數(shù)據(jù)等技術驅(qū)動,這也正是騰訊手語數(shù)字人的技術難點所在。

▲騰訊手語數(shù)字人小聰播報“中國奪得首金”

大家都能看到,手語數(shù)字人和其他數(shù)字人最大的區(qū)別在于不發(fā)聲,僅僅依靠動作、表情等要素。不論是聆語還是小聰,其形象和手語動作都十分傳神,那么在這背后有哪些黑科技?

1、超寫實的逼真數(shù)字人效果

對于健聽人而言,我們只需要聲音、音調(diào)就能表達豐富的意思,而手語以表形表意為主,需要較大幅度的肢體動作、更加逼真的人物形象等,能和觀眾產(chǎn)生交流,更具真實感與親切感,才能進一步使得手語翻譯的完成度更高,在有效模擬真人手語播報的基礎上,進一步提升用戶體驗。

為此,騰訊手語數(shù)字人使用了行業(yè)領先的3D重光照掃描還原、面部肌肉驅(qū)動、表情肢體手勢捕捉技術,打造了高度還原真人發(fā)膚、形象逼真、動作自然生動的數(shù)字人模型。

2、高可懂度的手語表達能力

大部分人可能不了解,學習手語其實和我們學習一門外語一樣困難。手語是屬于聽障人士的獨立語言,與漢語、英語等并列,有自己的語法結(jié)構(gòu)、語序編排等規(guī)則,擁有獨特的語言體系。和漢語類似,手語也分方言和普通話,為了讓手語普及度進一步提高,我國于2019年還專門出版了《國家通用手語詞典》,進一步對手語體系進行了規(guī)范。

騰訊手語數(shù)字人的手語翻譯系統(tǒng),正是基于《國家通用手語詞典》,形成了成熟的漢語到手語的語序轉(zhuǎn)化和翻譯過程?;谳斎氲慕÷犎苏Z言能夠低延遲生成高準確率的手語語言表征,通過多模態(tài)生成技術,實時預測生成對應的超寫實3D數(shù)字人驅(qū)動參數(shù),進而快速生成數(shù)字人手語播報視頻。

▲國家通用手語詞典應用程序手語講解示例(圖片截自國家通用手語詞典APP)

在聽障人士可懂度測評中,騰訊手語數(shù)字人的播報內(nèi)容整體可懂度已經(jīng)達到90%以上。

3、高接受度的手語展現(xiàn)效果

不了解手語的人,就像我一樣,可能以為手語僅僅需要手部動作,其實不然,表情、口動、體態(tài)等也都是手語表達的關鍵。下面這個例子就十分形象了,“明白嗎?”這個問句需要身體朝向、表情、眼神、口型的聯(lián)動,才能有效傳遞出疑問的語氣。

這一簡單的問句就需要這么多要素,如果換成其他信息更加豐富的句子,手語數(shù)字人將如何精準傳遞信息呢?

▲國家通用手語詞典應用程序手語講解疑問代詞示例(圖片截自國家通用手語詞典APP)

作為一種視覺語言,手語往往需要手控信息和非手控信息聯(lián)動表達。除了上面提到的疑問語氣,日常表達中還有感嘆、肯定等諸多情緒,為了使手語表達更加地道,精準的手部動作以及準確的非手控信息都需要具備。

為了實現(xiàn)更加準確、自然的手語表達效果,騰訊PCG AI交互部建立了漢語-手語翻譯系統(tǒng),可以通過機器翻譯生成手語表征信息,基于多模態(tài)端到端生成模型進行聯(lián)合建模及預測,生成高準確率的動作、表情、唇動等序列。

二、打造手語語言體系,驅(qū)動手語數(shù)字人準確表達

在大部分人看來,手語動作比較簡單,不同的詞匯有相對應的手勢,其實真正可懂也很難。打個比方來說,我們學英語,需要打亂漢語語序,按照英語的方式來思考,才能熟練掌握這門語言。手語也類似,其語序結(jié)構(gòu)、句子表達、特殊表情等都和漢語不同,有時一個句子中的詞匯并不需要全都通過手語翻譯,例如量詞、副詞等,但有時合理地刪減也是一大難點。

在調(diào)研過程中,研究人員發(fā)現(xiàn),現(xiàn)在《新聞聯(lián)播》《北京新聞》等很多欄目中都增設了手語播報,不過部分聽障人士稱,他們只能理解手語新聞中不到60%的內(nèi)容。

日常的新聞播報尚且如此,冬奧會這一特殊場景下,項目名稱、技術動作等手語詞匯翻譯難度可想而知。為了讓手語數(shù)字人適應冬奧會這一特殊場景,研究人員也費了很大功夫。

孟凡博稱,首先,他們需要訓練手語系統(tǒng)應對比賽、采訪現(xiàn)場嘈雜的環(huán)境音,前期,技術團隊選取了大量賽事報道對手語數(shù)字人進行訓練;其次,手語作為一門獨立語言,其文本資源很少,研究團隊通過多方搜集只能找到近160萬有效文本。相比于中英對照的2億文本,這個體量可以說很小了。

更為重要的一點是,體育賽事有很多專業(yè)術語,手語數(shù)字人在確保信息全面、完整的基礎上,也要保證數(shù)據(jù)的準確性,因此,騰訊AI交互技術團隊和專業(yè)手語老師達成合作,遷移到手語數(shù)字人中的手語都經(jīng)手語顧問反復確認。

因此,面對專業(yè)的冬奧會,在文本不足的條件下,如何打造“真正可懂”的手語數(shù)字人正是騰訊AI交互技術團隊需要跨越的技術壁壘。

1、手語表達語序獨立,建立映射詞典

看到復雜的手語動作,我們可能一頭霧水,但通過智東西和專業(yè)人士交流發(fā)現(xiàn),手語表達語序與漢語大不相同。例如,在手語表達中,會先打出表達行為目的的詞語,后打出表示行為的對象的詞語,漢語“我想回家”的手語表達為“家 回 我想”。

手語翻譯過程中,不僅需要將每個詞都進行一一對應,還需要調(diào)整其順序便于聽力障礙人士理解。因此,騰訊AI交互技術團隊在漢語和手語之間建立映射詞典和語言體系,將漢語翻譯為符合自然手語規(guī)范和聽力障礙人士表達習慣的手語。

2、搭建手語體系框架,按需刪減量詞

手語中表示人名時,會使用拼音,不過,冬奧會作為國際體育賽事,有很多外國運動員,相比中文人名的拼音更加復雜。如果用手語逐個表示的話,可能采訪已經(jīng)結(jié)束了。

在完整表達句意的前提下,騰訊AI交互技術團隊使用智能摘要技術,將按篇章摘要升級為按句子壓縮,對ASR識別文本進行精簡,抓取關鍵信息,省略量詞、程度副詞等詞匯。例如常規(guī)解說詞為:“看慢動作可以看出,谷愛凌的這個高度是比其他選手都是要高,非常的飄逸,非常的好看。”可以壓縮為“谷愛凌的高度比其他選手都高,非常飄逸好看。”文本長度縮減為原來解說詞的 60%。這種恰當刪減并保持完整句意的摘要能力是手語表達的關鍵前提。

騰訊AI交互技術團隊在手語顧問團隊、手語調(diào)研盤點下,搭建手語語言基礎體系框架,開發(fā)手語翻譯系統(tǒng),只需輸入健聽人語言,即可通過機器翻譯生成高準確率的手語語言表征。

此外,為了保證原視頻和手語視頻時間長度的一致性,手語數(shù)字人的翻譯過程會將漢語句子進行動態(tài)調(diào)控。根據(jù)時間、句子意思等,壓縮文本,最終生成相對應的手語視頻。

孟凡博說:“在視頻和音頻處理方面我們做了容錯對齊處理,直播翻譯過程延遲控制在可接受范圍內(nèi)。為了保證后續(xù)鏈路上手語視頻處理的穩(wěn)定性和觀眾體驗的一致性,我們還對音頻傳輸和識別輸入做了平滑處理。目前,漢語和手語的壓縮比大概在60%,會因?qū)嶋H情況不同進行調(diào)整?!?/p>

3、集成手控和非手控信息,可懂度超90%

漢語的神奇之處在于,同一句話不同語調(diào)意思完全不同。那么在手語中,同樣的句子如何表現(xiàn)說話人的不同情緒,更加多變的表情、手勢、體態(tài)如何準確傳遞句意,這也是打造手語數(shù)字人的技術難點所在。

手語需要多個要素綜合表達,才能向聽障人士傳達完整的意思。研究人員基于騰訊多模態(tài)端到端生成模型,提取手語語言體系下的多模態(tài)信息,如手勢詞匯、表情口動、體態(tài)節(jié)奏、語序韻律等,將手語動作和面部表情同步,進一步優(yōu)化手語表現(xiàn)力。

通過這項技術,AI手語可懂度達90%以上。

三、打造可視化動作編輯平臺,低延遲生成手語視頻

上面提到的這些技術讓手語數(shù)字人能夠變得真正可懂,但是如何讓這個技術真正為聽障人群帶來福利,能夠有效應用到新聞播報中,為此騰訊AI交互技術團隊打造了一套可視化動作編輯平臺,助力其規(guī)模化應用。

可視化動作編輯平臺基于完備的手語翻譯系統(tǒng)、成熟的PaaS系統(tǒng)等,在保證語義完整、準確的基礎上,能夠?qū)崿F(xiàn)低延遲快速翻譯,實現(xiàn)“秒翻手語”。

談及讓手語數(shù)字人真正可用,孟凡博說:“面向冬奧會場景的手語數(shù)字人只是我們的第一步,未來我們將考慮聽障人士在實時場景和非實時場景的應用,覆蓋聽障人士的不同需求?!?/p>

1、低延遲生成手語視頻

可視化動作編輯平臺的強大之處在于,可快速從漢語文本、視頻文件生成手語視頻,在這一環(huán)節(jié)中,轉(zhuǎn)換、翻譯所需的時間較短,有可能在你聽到新聞播報的瞬間,手語數(shù)字人也已經(jīng)完整傳遞了該內(nèi)容。

那么,這個系統(tǒng)生成手語視頻的具體實現(xiàn)過程是什么樣?在該系統(tǒng)中輸入一段文本或視頻進行預處理,內(nèi)容處理過程包括多模態(tài)視頻內(nèi)容提取、視頻語音提取、智能打軸、內(nèi)嵌字幕OCR提取等,生成手語翻譯要素,包括手勢、肢體、表情、唇動等,進一步保證語序轉(zhuǎn)化、表情體態(tài)等特征的準確性,依托超寫實數(shù)字人驅(qū)動,快速生成與之對應的手語視頻。

2、滿足有稿和無稿場景

目前,大部分電視節(jié)目都有字幕,不過一些直播節(jié)目、廣播節(jié)目中可能并沒有字幕,只有聲音。在這種情況下,騰訊手語數(shù)字人同樣能應對,不光可以提取文本信息,也可以識別音頻、視頻。

在實時新聞信息等場景,為了進一步促進信息無障礙溝通,通過手語數(shù)字人向聽障人士傳遞更多信息,騰訊的可視化動作編輯平臺可同時滿足無稿和有稿場景,并且支持以視頻流的形式為直播節(jié)目加入手語解說能力。

輸入節(jié)目源后,可視化動作編輯平臺可提取音頻流、視頻流,提取文本信息進行手語翻譯,快速生成手語視頻后,再對其進行編碼,進行視頻流傳輸,與節(jié)目視頻相融合,面向直播場景形成視頻推流。

3、快速學習更新熱詞

現(xiàn)在越來越多的熱詞、新詞出現(xiàn)在我們的日常交流中,同樣的詞語放到網(wǎng)絡上就有截然不同的意思,當然,很多聽障人士也會緊跟潮流。并且現(xiàn)在很多視頻中都會頻繁使用這些詞匯,這也為手語播報提出了挑戰(zhàn)。

騰訊手語數(shù)字人能自行學習,快速補充海量新詞、熱詞,并且研究人員專門針對冬奧會中體育競賽手語詞匯進行了整理和優(yōu)化。目前騰訊手語數(shù)字人已經(jīng)具備完整的體育解說手語能力。

談到手語詞庫的更新迭代,孟凡博透露,他們?yōu)槭终Z數(shù)字人創(chuàng)建了可視化動作編輯平臺,該平臺可以實現(xiàn)手語動作批量編輯與生成,無須對每個詞進行動捕,極大提升了手語詞匯生產(chǎn)效率。

騰訊AI交互技術團隊多年來深耕數(shù)字人技術,已有大數(shù)據(jù)平臺可以將高頻中文文本引入預訓練模型中,同時動態(tài)加載檢索、標注得到的新、熱詞手語打法,并與后端結(jié)合,根據(jù)詞匯類型預測部分oov詞匯打法,就能確保最終輸出的連貫性。

結(jié)語:騰訊手語數(shù)字人助力無障礙信息傳播

作為我國超寫實3D數(shù)字人領域的頭部企業(yè),騰訊AI交互技術團隊將目光聚焦到聽障人群中,沖上更高的技術壁壘。騰訊不斷精進數(shù)字人技術,為內(nèi)容播報需求強勁的行業(yè)提供新的輸出方式,拉近人與機器的距離。

騰訊AI手語主播系統(tǒng)既要完成語序構(gòu)建、表情生成等手語翻譯,還要依托超寫實數(shù)字人低延遲輸出手語視頻。對于觀眾來說,我們只能看到最后生成的手語視頻,但在之后的技術體系搭建卻十分龐大,這也是手語數(shù)字人技術發(fā)展的壁壘所在。

科技飛速發(fā)展的當下,騰訊一直在思考如何用科技拉近2700萬聽障人群與社會的距離。此次,騰訊手語數(shù)字人聆語、小聰在冬奧會這個重要節(jié)點上線,能受到更多有效用戶的關注。與此同時,孟凡博稱,圍繞冬奧會場景騰訊也在不斷優(yōu)化相關功能以兼容更多場景。未來,騰訊手語數(shù)字人也將在更多場景提供服務,在新聞報道之外,探索生活服務,文化文旅等線下場景,秉持科技向善,助力打造無障礙信息傳播環(huán)境。

關鍵詞: 她們的冬奧會解說 暖了千萬人的心 國家通用手語詞

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com