隨著時(shí)代的發(fā)展和人工智能技術(shù)的愈加完善,智能服務(wù)機(jī)器人已越來越廣泛地應(yīng)用于各行業(yè)、各領(lǐng)域當(dāng)中,如我們隨處可見的迎賓機(jī)器人、智能講解機(jī)器人、會場機(jī)器人等,為緩解勞動力短缺和工作人員的壓力起到了重要作用。
當(dāng)我們與服務(wù)機(jī)器人進(jìn)行語音對話時(shí),是否想過,它是依靠什么技術(shù)接收到我們的聲音,并給予及時(shí)、準(zhǔn)確地回復(fù)的呢?比如說:“今天天氣怎么樣”?服務(wù)機(jī)器人馬上會說:“今天天氣晴朗,氣溫為10℃-22℃”,伴隨有4-5級的東南風(fēng)……
其實(shí),服務(wù)機(jī)器人的語音交互原理與我們?nèi)祟愂窍嗨频?實(shí)現(xiàn)正常的互動必須滿足三個(gè)條件:用耳朵聽、用大腦理解、用嘴巴回答。服務(wù)機(jī)器人實(shí)現(xiàn)智能交互的“三大技術(shù)”分別為語音識別技術(shù)(ASR),相當(dāng)于它的“耳朵”;自然語言處理技術(shù)(NLP),相當(dāng)于它的“大腦”;語音合成技術(shù)(TTS),相當(dāng)于它的“嘴巴”。
當(dāng)我們提出問題后,智能服務(wù)機(jī)器人將通過麥克風(fēng)接收聲音,聲音將通過語音識別技術(shù)(ASR),把聲學(xué)語音轉(zhuǎn)換為服務(wù)機(jī)器人能夠識別的文字、字母信息。如上圖所示,在寧夏博物館嘈雜的環(huán)境中,小笨智能服務(wù)機(jī)器人可通過語音識別技術(shù)(ASR)準(zhǔn)確“傾聽”游客聲音,并轉(zhuǎn)換為其能夠識別的語言,為下一步對語義的分析、理解做準(zhǔn)備。
小笨智能服務(wù)機(jī)器人語音識別技術(shù)(ASR)采用國際先進(jìn)算法,通過編碼,把語音轉(zhuǎn)換為小笨智能服務(wù)機(jī)器人可以識別的樣式(即數(shù)字向量表示),因?yàn)槁曇粜盘柺欠?wù)機(jī)器人沒有辦法直接識別的,需要將聲音切割成一小段一小段音頻,然后每一小段都按一定規(guī)則的數(shù)字向量來表示。
然后就是解碼的過程,即將數(shù)字向量拼接為文字、字母的過程。將編碼好的向量放置于聲學(xué)模型和語言模型中,就可得到每一小段對應(yīng)的文字、字母,然后把翻譯出來的文字、字母再經(jīng)過語言模型,就可組成小笨可識別的單詞。
當(dāng)然,聲學(xué)模型和語言模型也是個(gè)神經(jīng)網(wǎng)絡(luò),是小笨智能服務(wù)機(jī)器人通過大量的語音和語言數(shù)據(jù)訓(xùn)練出來的,這也是小笨智能服務(wù)機(jī)器人可以準(zhǔn)確識別各種復(fù)雜語音的原因之一……
解碼完成后,可識別的單詞信息將通過服務(wù)機(jī)器人的自然語言處理技術(shù)(NLP)來準(zhǔn)確理解客戶意圖、情感傾向等信息,此為語音交互中的核心之一,也是最難的模塊之一。
自然語言處理技術(shù)(NLP)通過語法分析、句法分析、語義理解文本相似度處理、情感傾向分析等技術(shù),具備衡量人們觀點(diǎn)和傾向的能力,可精準(zhǔn)區(qū)分出哪些話屬于這個(gè)意圖,哪些表達(dá)不是這一類意圖。小笨智能自主研發(fā)的自然語言處理技術(shù)(NLP)可將接收到的信息進(jìn)行分析、理解,上圖為小笨智能服務(wù)機(jī)器人在濟(jì)南能源集團(tuán)辦事大廳,前來辦理業(yè)務(wù)的群眾只需要說出需求,即可準(zhǔn)確理解群眾意圖,并從“5G云端大腦”中提取出相對應(yīng)答案,發(fā)出準(zhǔn)確的回復(fù)指令。
小笨智能服務(wù)機(jī)器人“5G云端大腦”儲存著海量知識庫,可支持生活常識、天氣、機(jī)票等信息查詢,并同步企業(yè)各類形式的信息,使企業(yè)信息通過語音、視頻、動圖等形式展現(xiàn)出來,滿足訪客98%以上的日常閑聊或企業(yè)業(yè)務(wù)問答。
當(dāng)服務(wù)機(jī)器人發(fā)出回復(fù)指令后,還需要用“嘴巴”說出來,這就需要使用語音合成技術(shù)(TTS),即把回復(fù)指令轉(zhuǎn)換為人類能夠聽懂的聲音。如下圖,在濟(jì)南長途汽車總站小笨智能服務(wù)機(jī)器人“理解”完游客的問題后,于“5G云端大腦”中提取出準(zhǔn)確的回復(fù)指令,并轉(zhuǎn)換為游客能夠理解的語音、視頻、圖片等形式,讓游客輕松掌握出行信息。
語音合成技術(shù)(TTS)的工作流程可分為兩步,第一步為文本處理,這一步做的事情是把文字或字母指令轉(zhuǎn)化成音素序列,并標(biāo)出每個(gè)音素的起止時(shí)間、頻率變化等信息,這一步的作用不可小覷,比如拼寫相同但讀音不同的詞的區(qū)分、縮寫的處理、停頓位置的確定等。
第二步為語音合成,這一步是指根據(jù)已經(jīng)標(biāo)注好的音素起止時(shí)間、頻率變化等生成語音,最終通過揚(yáng)聲器準(zhǔn)確表達(dá)出來。
小笨智能語音合成技術(shù)(TTS)技術(shù)可對文本實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換,轉(zhuǎn)換時(shí)間可以按秒計(jì)算,文本輸出的語音音律流暢,讓聽者在聽取信息時(shí)感覺自然,幾乎沒有機(jī)器語音輸出的冷漠與生澀感。
小笨智能強(qiáng)大的自然語言處理能力,可滿足在不同應(yīng)用場景中高效、準(zhǔn)確服務(wù),針對不同的應(yīng)用場景,同步不同的樣本數(shù)據(jù),所以,小笨智能已服務(wù)過的6000+客戶中,覆蓋政務(wù)大廳、法院、商場、機(jī)場等全行業(yè)場景,滿足了不同企業(yè)的差異化需求。
從語音識別到智能問答,從意圖識別到情感分析,無不顯示小笨智能服務(wù)機(jī)器人在當(dāng)代對場景深層次服務(wù)的執(zhí)著追求。未來,小笨智能將繼續(xù)堅(jiān)持為企業(yè)、為社會提供有價(jià)值的見解,使傳統(tǒng)行業(yè)煥發(fā)新生力,讓我們的生活更方便、更高效
關(guān)鍵詞: 一篇看懂服務(wù)機(jī)器人語音交互與三大技術(shù)的因果關(guān)系