小鵬汽車似乎對(duì)產(chǎn)品有近乎偏執(zhí)要求:要在車內(nèi)創(chuàng)造出一種能「無(wú)限接近人類語(yǔ)氣」的聲音交互系統(tǒng)。
7 月,這套「全新 AI 聲音」的小 P 系統(tǒng)將在 P7 部分車型上線。
“去年 1024 之后,小鵬車機(jī)智能化有了很大進(jìn)步,于是我們花費(fèi)很多精力在小 P 的語(yǔ)音表現(xiàn)上,給大家一個(gè)更好的信息傳遞。”小鵬汽車 AI 產(chǎn)品專家陳思云介紹起全新車載語(yǔ)音。
小鵬產(chǎn)品團(tuán)隊(duì)為新聲音設(shè)立了三大「綱要」:
(1)足夠像真人。
(2)角色足夠擬人,例如定位成「秘書(shū)」、「寵物」或是「女神」。
(3)親切傳達(dá)信息,拉進(jìn)用戶距離。
小 P 全新 AI 聲音是如何做到的呢?為實(shí)現(xiàn)這三條,團(tuán)隊(duì)就必須往車機(jī)聯(lián)入一個(gè)在線的、更大規(guī)模的「神經(jīng)網(wǎng)絡(luò)模型」—— 從而實(shí)現(xiàn) HIFI 級(jí)別合成語(yǔ)音。
目前,這套神經(jīng)網(wǎng)絡(luò)已經(jīng)為小 P 帶來(lái)了 2 項(xiàng)肉眼可見(jiàn)的提升:
一、MOS 評(píng)分 4.49
經(jīng) MOS1 語(yǔ)音質(zhì)量評(píng)測(cè),該聲音得分為 4.49,是目前微軟 MOS 語(yǔ)音質(zhì)量評(píng)測(cè)得分最高的車載智能語(yǔ)音助手。
當(dāng)然,MOS 評(píng)分不能完全完全「神化」。
MOS 最早源于電話的語(yǔ)音質(zhì)量評(píng)價(jià)。這項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)由 ITU(InternationalTelecommunicationUnion,國(guó)際電信聯(lián)盟簡(jiǎn)稱國(guó)際電聯(lián))在 1996 年,作為囊括在《P.800: Methods for determination of transmission quality》中的一個(gè)「子標(biāo)準(zhǔn)」沿用至今,字面意思不難看出,這是個(gè)圍繞「主觀」(subjective)—— 也就是人工聽(tīng)覺(jué)、人工打分的一項(xiàng)判定方法。
別看 MOS 古老(那時(shí) TTS 還未普及),作為一個(gè)成熟、穩(wěn)定、高度逼近人類聽(tīng)覺(jué)體驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),MOS 的制定最初建立在一套有參考信號(hào)的評(píng)價(jià)體系之上的:評(píng)價(jià)時(shí),同時(shí)需要待測(cè)信號(hào)和參考信號(hào)。相較于無(wú)參考評(píng)價(jià)方案,有參考的客觀評(píng)價(jià)方案更容易做得貼近主觀評(píng)價(jià)體系。
“MOS 體系本身是一個(gè)主觀評(píng)分,在全球最標(biāo)準(zhǔn)化的大會(huì)上參加評(píng)分的時(shí)候,也會(huì)要求需要把兩個(gè)競(jìng)品或兩個(gè)聲音加上真人,加上一個(gè)非安慰劑的參照系放在一起橫向比較。
我們只能比較這幾個(gè)主觀評(píng)價(jià)中,用戶對(duì)它們?cè)u(píng)價(jià)的差值,但絕對(duì)分值的比較,因?yàn)樗且粋€(gè)主觀比較,所以在換樣本量,或換不同的場(chǎng)景,都會(huì)導(dǎo)致分值上的差異。
需要放在同一測(cè)試中這個(gè)分?jǐn)?shù)才有比較的意義。”陳思云在回答能否用 MOS 評(píng)分高低作競(jìng)品橫評(píng)時(shí)談到。“即便無(wú)法客觀的讓小 P 橫向?qū)Ρ?。但我相信更新后,用戶拿?P 和 Siri 對(duì)比,還是有很大區(qū)別的。”
二、軟硬兼施,打出「情感牌」
從剛才的視頻來(lái)看,全新小 P 聲音飽滿程度也有很大提升,再配合 P7 本身的良好的 NVH 性能,我預(yù)感這波 HiFi 級(jí)高保真音質(zhì)真的可以在 P7 上發(fā)揮出來(lái),成為量產(chǎn)車中排名數(shù)一數(shù)二的沉浸交互感。
實(shí)際上,全新 AI 聲音采用 24K 采樣技術(shù)(現(xiàn)有聲音為 16k),各種場(chǎng)景下的聲音反饋都被精心調(diào)教,用戶聽(tīng)到的每句話都細(xì)膩生動(dòng)、充滿活力。
“新舊聲音對(duì)比來(lái)聽(tīng),會(huì)明顯感受到音質(zhì)的差距。這個(gè)聲音不是拼接的,完全采用 AI 訓(xùn)練、生成出來(lái)的。”郝超補(bǔ)充道,“業(yè)內(nèi)無(wú)論車企還是智能音箱,大家還是在用提前錄音的方式,盡可能讓語(yǔ)音包更好聽(tīng),但內(nèi)容覆蓋率不高,所以我們采取這種方式(AI 生成),也算一次大的創(chuàng)新。”
除了這些「硬實(shí)力」,全新 AI 語(yǔ)音還有足夠「軟實(shí)力」。
“小 P 會(huì)像 Siri 一樣調(diào)侃么?”,筆者問(wèn)道。
“全新 AI 聲音會(huì)有一些情緒上的表達(dá),或者對(duì)不同情景、不同語(yǔ)氣會(huì)有一些彩蛋的埋入,包含像偶爾跟用戶進(jìn)行一些小的調(diào)侃,去調(diào)劑一下用戶整個(gè)行程中的娛樂(lè)性,這也會(huì)有一些小的彩蛋的埋入。”陳思云回答。
而具體有哪些「彩蛋」,還需要 P7 車主一點(diǎn)點(diǎn)挖掘。
除了語(yǔ)音彩蛋,全新小 P 語(yǔ)氣包括例如「助理、客服、聊天、溫和、親熱、抒情、新聞、嚴(yán)肅、不滿、生氣、害怕、悲傷、冷靜」等 14 種強(qiáng)烈情緒的變換能力,后續(xù)版本還會(huì)逐步貼合更多場(chǎng)景。
說(shuō)了這么多優(yōu)點(diǎn),但新技術(shù)哪有不翻車的。來(lái)談?wù)劰P者對(duì)小鵬全新 AI 語(yǔ)音的擔(dān)憂吧。
首先就是難以應(yīng)對(duì)離線情形。
車輛行駛在偏遠(yuǎn)地區(qū),沒(méi)網(wǎng),或者信號(hào)中斷,在「有-無(wú)」網(wǎng)絡(luò)之間來(lái)回切換,駕駛者肯定對(duì)語(yǔ)音質(zhì)量的高低變換一定是有反應(yīng)的。
但小鵬的工程師已經(jīng)想出了對(duì)策:在線追求高品質(zhì),離線兜底無(wú)時(shí)延。
“如果遇到「5 公里長(zhǎng)的隧道」這類極端網(wǎng)絡(luò)情況,我們會(huì)在本地留一個(gè)「小的離線模型」,它的體量不會(huì)很大,但保證小 P 在時(shí)效性不變差的情況下一定能把聲音發(fā)出來(lái),比如說(shuō)導(dǎo)航或者自動(dòng)駕駛這些播報(bào),兩個(gè)模型工作準(zhǔn)則是一樣的。”
按照郝超的說(shuō)法,這套自研「端云融合多級(jí)緩存」,能讓車輛預(yù)測(cè)當(dāng)下的網(wǎng)絡(luò)情況,自動(dòng)改選「在線神經(jīng)網(wǎng)絡(luò)引擎」or「離線引擎進(jìn)行聲音合成」,總之就是在信號(hào)不佳的情況下,語(yǔ)音播報(bào)依然維持高音質(zhì)。
“通過(guò)這個(gè)技術(shù),小 P 已做到 97% 超高在線率。”郝超補(bǔ)充道。
最后:
筆者認(rèn)為,擬人的全新小 P 能夠更好傳達(dá)信息。
回想下,你有沒(méi)有經(jīng)歷過(guò),當(dāng)車內(nèi)導(dǎo)航聲被道路噪音掩蓋、碰巧路線顯示延遲而錯(cuò)過(guò)待轉(zhuǎn)路口?
在認(rèn)知心理學(xué)中有個(gè)經(jīng)常被提及的原理:「雞尾酒會(huì)效應(yīng)」。指的是人類聽(tīng)覺(jué)系統(tǒng)有著極其神奇的「專注能力」,即便在嘈雜環(huán)境中,仍能將注意力專注于某種「特定聲音」,而「無(wú)視」掉背景音。
其實(shí),小鵬語(yǔ)音團(tuán)隊(duì)做的便是將這個(gè)原理「逆」過(guò)來(lái):做出一套更好被人類聽(tīng)覺(jué)系統(tǒng)分辨的聲音。
人的注意力是有限的,一個(gè)好的交互系統(tǒng)在設(shè)計(jì)時(shí)就必定要考慮到極端情況下,如何減少人腦的能量消耗,從而達(dá)到最好的信息傳遞效果。期待小 P 早日讓車主們享受到這一樂(lè)趣。
關(guān)鍵詞: 小鵬 聲音交互系統(tǒng) P7 人類語(yǔ)氣