目前語(yǔ)音端點(diǎn)檢測(Voice Active Detection,簡(jiǎn)稱(chēng)VAD)的主要任務(wù)是準確快速判決出待處理的語(yǔ)音信號有話(huà)還是無(wú)話(huà),作為自動(dòng)語(yǔ)音識別(Automatic Speech Recognition,簡(jiǎn)稱(chēng)ASR)系統的前置處理模塊,一旦檢測到話(huà)音信號,就啟動(dòng)ASR系統,并進(jìn)行話(huà)音數據流的傳輸。
準確的VAD將提高自動(dòng)語(yǔ)音識別系統的利用率和減少語(yǔ)音處理的數據量。
然而現實(shí)應用環(huán)境中,智能客服的應用場(chǎng)景十分廣泛,話(huà)音活動(dòng)檢測面臨的噪聲環(huán)境種類(lèi)多樣。
一方面是外在環(huán)境的復雜,另一方面是方言和口音。外在環(huán)境復雜包括噪聲、混響、回聲等,而且噪音又分為不同的會(huì )議室、戶(hù)外、商場(chǎng)等不同環(huán)境;在方言、口音方面,大家都知道,在我們國家,幾十種方言,每個(gè)人都有自己的獨特口音。
隨著(zhù)智能客服機器人的快速發(fā)展,在電話(huà)語(yǔ)音客服機器人系統中實(shí)現大規模穩健性好、精準性高、魯棒性強、運算量少的電話(huà)語(yǔ)音實(shí)時(shí)檢測技術(shù),具有迫切的現實(shí)需求。
在電話(huà)語(yǔ)音交互場(chǎng)景中,VAD面臨著(zhù)兩個(gè)難題:
1、可以成功檢測到最低能量的語(yǔ)音(靈敏度)
2、如何在多變復雜噪聲環(huán)境下成功檢測(漏檢率和虛檢率)
漏檢反應的是原本是語(yǔ)音但是沒(méi)有檢測出來(lái),而虛檢率反應的是不是語(yǔ)音信號而被檢測成語(yǔ)音信號的概率。
相對而言漏檢是不可接受的,而虛檢可以通過(guò)后端的ASR和NLP算法進(jìn)一步過(guò)濾,但是虛檢會(huì )帶來(lái)系統資源利用率上升,以及造成響應不及時(shí)。
對于在目標人交互語(yǔ)音前發(fā)生虛檢,主要問(wèn)題是增加ASR識別處理數據量,如下圖所示:


對于在目標人交互語(yǔ)音后發(fā)生虛檢,不僅增加ASR識別處理數據量,還會(huì )造成響應不及時(shí)。
傳統的斷句是基于能量的檢測來(lái)判定,但是有兩個(gè)主要缺點(diǎn):
1、一是無(wú)法過(guò)濾噪音和無(wú)效的語(yǔ)音
2、另外就是對說(shuō)話(huà)人的要求較高(中間不能有停頓。如果句間停頓時(shí)長(cháng)設置的太短,容易造成截斷;句間停頓時(shí)長(cháng)設置太長(cháng),又會(huì )造成響應不及時(shí))如下圖所示:


電話(huà)語(yǔ)音機器人采用的是全雙工交互方式。
作為一個(gè)持續的交互過(guò)程,不只是持續的拾音和網(wǎng)絡(luò )傳輸,更需要包括持續的語(yǔ)音喚醒、智能有效人聲檢測、動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測、無(wú)效語(yǔ)音拒識等各個(gè)模塊相互配合,才能確保語(yǔ)音識別和語(yǔ)義理解模塊能做出快速的響應。
目前,壹鴿科技采用的技術(shù)架構如下圖所示:

通過(guò)語(yǔ)音喚醒來(lái)觸發(fā)語(yǔ)音識別,主要是降低虛檢,盡量避免無(wú)意義的音頻送入ASR識別,為保證在觸發(fā)語(yǔ)音識別后所送往ASR的音頻流的完整性,采用了前瞻技術(shù),如下圖所示:

為了確保語(yǔ)音識別和語(yǔ)義理解能夠做出快速的響應,壹鴿科技采用了基于模型的有效人聲智能檢測和基于用戶(hù)意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測。
1.基于模型的有效人聲智能檢測
基于模型的檢測可以有效解決噪音和無(wú)效語(yǔ)音。這塊主要是通過(guò)采集不同環(huán)境的噪音,基于深度神經(jīng)網(wǎng)絡(luò )的訓練出對應聲學(xué)模型,進(jìn)行過(guò)濾,把有效語(yǔ)音傳送到ASR服務(wù)器進(jìn)行交互。
2.基于用戶(hù)意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測
動(dòng)態(tài)端點(diǎn)檢測算法實(shí)現從連續輸入的數據流中檢測出包含完整用戶(hù)意圖的語(yǔ)音送入語(yǔ)義理解模塊,可以很好的解決用戶(hù)的停頓,因為在人機的交流過(guò)程中,在一句包含完整意圖語(yǔ)音中,停頓是很常見(jiàn)的現象,這在我們對用戶(hù)的行為分析中得到驗證。

在持續的語(yǔ)音交互過(guò)程中,由于不同地區方言、口音差異,ASR識別后文本語(yǔ)料中含有大量的同音錯誤、音近錯誤,如平卷舌差異、前后鼻音差異、“了”(l)“呢”(n)差異以及“胡”(h)“福”(f)差異等用戶(hù)大量無(wú)意識的輸入錯誤及語(yǔ)音識別錯誤,造成大量語(yǔ)音識別錯誤文本送給后續的語(yǔ)義理解模塊處理并做出交互動(dòng)作,導致語(yǔ)音交互流程不可控,嚴重影響交互體驗。
針對全雙工交互中被吸收進(jìn)來(lái)的無(wú)效的語(yǔ)音和無(wú)關(guān)說(shuō)話(huà)內容,拒識和語(yǔ)音識別后文本糾錯是必須。
目前壹鴿科技正在從聲學(xué)信號、語(yǔ)義等多個(gè)方面對接收的語(yǔ)音進(jìn)行拒識判斷和語(yǔ)音識別后文本糾錯技術(shù)研究。
電話(huà)錄音通常存在著(zhù)大量的背景噪聲、方言口音、信道干擾,而且電話(huà)錄音通常采用較低的采樣率,音質(zhì)不高,這些都嚴重影響到語(yǔ)音識別的準確率。
語(yǔ)音識別穩定度方面,我們主要考察語(yǔ)音識別引擎輸出結果的統計特性,將通話(huà)錄音識別結果輸出音頻檢索網(wǎng)絡(luò ),通過(guò)比較正確的語(yǔ)句和大量的錯誤語(yǔ)句,可以集中發(fā)現其中比較穩定和容易出錯的部分,如發(fā)現一些出錯較為頻繁的短文本,例如:
正確語(yǔ)句
查快遞
錯誤語(yǔ)句
前快遞、車(chē)快遞、千快遞、彩快遞、曹快遞、送快遞、天快遞等
將這些出錯較為頻繁的短文本指定為語(yǔ)音關(guān)鍵字符串,在檢索網(wǎng)絡(luò )中進(jìn)行匹配,輸出檢索結果,如下圖所示:

某些詞語(yǔ)的發(fā)音組合對于語(yǔ)音識別系統很容易確定,而另一些則容易造成錯誤,特別是漢語(yǔ)。來(lái)自不同地域的人在某些音節發(fā)聲的時(shí)候容易出現不規范的現象。
對于這種現象進(jìn)行統計,可以得到不同高頻短文本的置信度,透過(guò)置信度評價(jià)來(lái)衡量前端識別的可靠性,對于那些可能是錯誤的結果,加以特別的處理,或者將之完全舍棄,讓系統僅接受正確的部分,在很大程度上拓展了語(yǔ)音識別的應用范圍。