在語音識別系統(tǒng)的現(xiàn)實(shí)使用環(huán)境中,噪聲、干擾和混響幾乎是無處不在的。在麥克采集到的音頻信號中,這些不利因素和目標(biāo)語音信號疊加在一起,會帶來識別率的下降,而在遠(yuǎn)場環(huán)境中更是如此。如圖3-1所示,遠(yuǎn)場環(huán)境中可能同時(shí)存在反射聲、揚(yáng)聲器回聲、干擾用戶的聲音、方向性噪聲和彌散噪聲等,這對語音識別系統(tǒng)的準(zhǔn)確性提出了很大的挑戰(zhàn)。語音前端算法是一組對語音數(shù)據(jù)進(jìn)行預(yù)處理的算法,其目標(biāo)是從數(shù)據(jù)中去除這些不利因素,并盡可能恢復(fù)原始的純凈語音,從而提升識別率。
傳統(tǒng)的語音前端算法主要是VAD、降噪和AEC。圖3-2是一個簡單的單通道語音前端處理框架的示意圖(根據(jù)實(shí)際系統(tǒng)的功能和場景,使用的模塊和處理順序可能有所不同)。
其中,VAD的一個作用是檢測帶噪聲的音頻數(shù)據(jù)中是否有語音。盡管很簡單,但是VAD算法在語音交互系統(tǒng)中有著非常重要的作用。在帶有語音喚醒功能的Always-On系統(tǒng)中,如智能手機(jī)上的語音助手,VAD通常被作為一級算法。該算法一般會一直在后臺運(yùn)行,并在檢測到語音時(shí),激活后面級別的語音喚醒或聲紋識別算法。由于移動設(shè)備對功耗有要求,因此在此場景下通常對VAD算法的復(fù)雜度有較大限制。VAD算法的另外一個作用是在處理整段長語音的語音識別時(shí),可對整段數(shù)據(jù)進(jìn)行檢測并找出其中每一句話的起始點(diǎn)和終止點(diǎn),并以此為依據(jù)對數(shù)據(jù)進(jìn)行分割。此外,VAD算法還是很多其他語音前端算法的基礎(chǔ)。例如,在降噪或AEC算法中,可根據(jù)VAD的結(jié)果來使用不同的處理策略。
AEC算法的作用是消除本地麥克風(fēng)采集到的從揚(yáng)聲器中播放出來的遠(yuǎn)端音頻信號。一個典型的例子是,在智能音箱中,有些場景需要在播放音樂或語音的同時(shí)識別用戶指令。由于此時(shí)麥克風(fēng)采集到的聲音是目標(biāo)語音和揚(yáng)聲器聲音(這里被稱為回聲)的混合,因此需要AEC模塊來消除回聲并恢復(fù)純凈的目標(biāo)語音。為了達(dá)到較好的消除效果,AEC模塊需要將揚(yáng)聲器播放的音頻信號(也被稱為回采信號或遠(yuǎn)端參考信號)作為輸入。
降噪又被稱為語音增強(qiáng),主要作用是從語音信號中去除噪聲,并盡可能恢復(fù)原始的純凈語音。實(shí)際環(huán)境中的噪聲可以分為平穩(wěn)噪聲和非平穩(wěn)噪聲兩類。平穩(wěn)噪聲是指統(tǒng)計(jì)特性比較穩(wěn)定或隨著時(shí)間變化只有緩慢變化的噪聲,如風(fēng)扇聲、汽車發(fā)動機(jī)噪聲等;而非平穩(wěn)噪聲是指統(tǒng)計(jì)特性快速變化的噪聲,現(xiàn)實(shí)環(huán)境中各種突發(fā)的噪聲大多屬于此類。由于非平穩(wěn)噪聲對語音識別的性能有較大影響,因此對非平穩(wěn)噪聲的消除效果是評價(jià)一個降噪算法最關(guān)鍵的部分。
近幾年,隨著算法和硬件的不斷發(fā)展,智能音箱和車載智能語音交互系統(tǒng)已經(jīng)越來越普及,人們對遠(yuǎn)場語音交互的需求也越來越大。在遠(yuǎn)場語音交互場景中,隨著用戶與設(shè)備之間距離的增加,噪聲、干擾和混響等因素對語音質(zhì)量的影響也被放大,并帶來語音識別率的下降。傳統(tǒng)的單通道語音前端系統(tǒng)在遠(yuǎn)場應(yīng)用中并不能很好地處理遠(yuǎn)場語音識別的問題。這是因?yàn)閱瓮ǖ酪纛l沒有空間指向性,在遠(yuǎn)場環(huán)境中無法有效地在抑制干擾和噪聲的同時(shí)保留目標(biāo)信號。而麥克風(fēng)陣列通過規(guī)則排列的麥克風(fēng)來采集多通道數(shù)據(jù),并通過波束形成算法和空間指向性,可以很好地對目標(biāo)信號進(jìn)行定向增強(qiáng),這不僅能抑制彌散噪聲,還能抑制方向性的噪聲和干擾。麥克風(fēng)陣列和相應(yīng)的算法在遠(yuǎn)場語音交互的普及中發(fā)揮了重要作用。在當(dāng)前商用的遠(yuǎn)場語音交互場景中,麥克風(fēng)陣列的使用已經(jīng)成為標(biāo)配。
圖3-3是一個典型的使用麥克風(fēng)陣列的多通道語音前端系統(tǒng),其中除了AEC、VAD、降噪等模塊,還包含波束形成、聲源定位、去混響、增益控制等模塊(在實(shí)際的應(yīng)用與場景中,模塊的組合方式可能會有所不同)。
關(guān)鍵詞: 圖書推薦 |語音識別服務(wù)實(shí)戰(zhàn)(文末贈書)