一、簡介
技術(shù)底座:對話式AI產(chǎn)品的AI技術(shù)底座由智能語音、自然語言理解與知識工程核心支撐
智能語音:在對話機器人產(chǎn)品中,智能語音技術(shù)主要應用于語音機器人與視頻機器人/數(shù)字人產(chǎn)品的對話交互,由語音識別(ASR)與語音合成(TTS)兩部分組成。從工作流程來看,用戶真人的語音會先通過ASR(語音識別)技術(shù)將其轉(zhuǎn)化為文本,再接入NLU(自然語言理解)進一步理解用戶意圖。因此,語音識別準確率至關(guān)重要,決定后續(xù)自然語言理解效果
自然語言理解:自然語言處理技術(shù)主要包括自然語言理解(NLU)與自然語言生成(NLG)兩部分。對于對話機器人來說,如何做好自然語言理解(NLU)中的意圖識別,是保證人機交互效果的關(guān)鍵。當下意圖識別已達到相對優(yōu)質(zhì)水平,但對于情緒的理解與判斷仍是難點
知識工程:知識工程已從早期單一FAQ技術(shù)發(fā)展豐富到深度學習FAQ、表格知識庫、知識圖譜、文檔閱讀理解等多技術(shù)階段。從客戶端體驗來看,廠商將持續(xù)追求知識工程技術(shù)的豐富升級,
而從自身經(jīng)營來看,廠商需基于投入產(chǎn)出判斷是否開發(fā)新的知識工程技術(shù)
二、對話式AI產(chǎn)品的技術(shù)底座
三大AI技術(shù)底座:智能語音、自然語言處理、知識工程
對話式AI產(chǎn)品的AI技術(shù)底座由智能語音、自然語言理解與知識工程核心支撐。在工作流程中,智能語音技術(shù)分為語音識別(ASR:Automatic Speech Recognition)與語音合成(TTS:Text-To-Speech)兩類,實現(xiàn)對話內(nèi)容從語音到文本、從文本到語音的相互轉(zhuǎn)換;自然語言處理可分為自然語言理解(NLP:Natural Language Processing)與自然語言生成(NLG:Natural Language Processing),其關(guān)鍵是要讓機器人“理解”人類語言中的意圖并基于知識庫“生成”對應的自然語言,完成人機對話交互;知識庫為對話式AI產(chǎn)品的大腦,由知識工程支撐建設(shè)?,F(xiàn)知識工程以深度學習FAQ為核心應用,另包括表格知識庫、知識圖譜和文檔閱讀理解等技術(shù)。
三、智能語音技術(shù)
語音識別準確率至關(guān)重要,決定后續(xù)自然語言理解效果
在對話機器人產(chǎn)品中,智能語音技術(shù)主要應用于語音機器人與視頻機器人/數(shù)字人產(chǎn)品的對話交互,由語音識別(ASR)與語音合成(TTS)兩部分組成。從工作流程來看,用戶真人的語音會先通過ASR(語音識別)技術(shù)將其轉(zhuǎn)化為文本,再接入NLU(自然語言理解)進一步理解用戶意圖。因此,智能語音技術(shù)中的語音識別準確率至關(guān)重要,轉(zhuǎn)換的正確與否直接決定了后續(xù)自然語言處理的效果?,F(xiàn)階段,語音識別的效果與成熟度已達到了相對先進的水平,對話式AI廠商正從VAD靜默檢測、ASR聲學模型與ASR語言模型三部分入手,對應突破各部分的技術(shù)難點,以進一步提升語音識別的準確率。
四、自然語言處理技術(shù)
意圖識別已達到相對優(yōu)質(zhì)水平,情緒的理解與判斷仍是難點
自然語言處理技術(shù)主要包括自然語言理解(NLU)與自然語言生成(NLG)兩部分。對于對話機器人來說,如何做好自然語言理解(NLU)中的意圖識別,是保證人機交互效果的關(guān)鍵。根據(jù)業(yè)內(nèi)專家普遍反饋,目前意圖識別的應用效果良好。
雖然對話機器人尚難做到人與人之間的理解程度,但人在知道是在與機器人交互時后,表達會相對標準化,因此意圖識別的實際效果會普遍優(yōu)于預期。而在情緒的判斷與理解上,對話機器人仍有很長一段路要走,這也是未來可給行業(yè)帶來技術(shù)突破與產(chǎn)品顛覆的方向。
五、知識工程技術(shù)
提升知識庫運營建設(shè)能力,基于投入產(chǎn)出評估新技術(shù)開發(fā)
知識工程已從早期單一FAQ技術(shù)發(fā)展豐富到深度學習FAQ、表格知識庫、知識圖譜、文檔閱讀理解等多技術(shù)階段。從客戶端體驗來看,對話式AI廠商將持續(xù)追求知識工程技術(shù)的豐富升級,根據(jù)客戶的業(yè)務(wù)及資料特點為其匹配合適的知識工程技術(shù),將知識庫的建設(shè)質(zhì)效最大化;從廠商自身經(jīng)營來看,廠商需基于投入產(chǎn)出判斷是否開發(fā)新技術(shù)。以知識圖譜為例,知識圖譜可支撐多知識點的綜合判斷,提升對話式AI產(chǎn)品在復雜問題下的答案準確度,但知識圖譜同樣存在技術(shù)門檻高、開發(fā)投入大等特點,廠商需根據(jù)所需投入與業(yè)務(wù)落地價值,去評估是否投入開發(fā),并選擇判斷合適的行業(yè)切入點。
關(guān)鍵詞: 2022對話式AI發(fā)展-對話式AI的進階 自然語言理解