
端點(diǎn)檢測
語(yǔ)音端點(diǎn)檢測是對輸入的音頻流進(jìn)行分析,確定客戶(hù)說(shuō)話(huà)的起點(diǎn)和終止點(diǎn)的處理過(guò)程。一旦檢測到客戶(hù)開(kāi)始說(shuō)話(huà),語(yǔ)音開(kāi)始流向識別引擎,直到檢測到客戶(hù)說(shuō)話(huà)結束。這種方式能夠使得識別引擎在客戶(hù)說(shuō)話(huà)的同時(shí)開(kāi)始進(jìn)行識別處理,做到最大限度的即時(shí)處理。
端點(diǎn)檢測過(guò)程:
1.基于語(yǔ)音信號的特征,用能量,過(guò)零率,熵(entropy),音高(pitch)等參數以及它們的衍生參數,來(lái)判斷信號流中的語(yǔ)音/非語(yǔ)音信號。
2.在信號流中檢測到語(yǔ)音信號后,判斷此處是否是語(yǔ)句的開(kāi)始或結束點(diǎn)。在商用語(yǔ)音系統中,由于信號的多變的背景和自然對話(huà)模式而更容易使得句中有停頓(非語(yǔ)音),特別是在爆發(fā)聲母前總會(huì )有無(wú)聲間隙。因此,這種開(kāi)始/結束的判定尤為重要。
n端點(diǎn)檢測目的:
1.減少識別器的數據處理量。可以大量減少信號傳輸量及識別器的運算負載,對于語(yǔ)音對話(huà)的實(shí)時(shí)識別有重要作用。
2.拒絕非語(yǔ)音的信號。對非語(yǔ)音信號的識別不僅是一種資源浪費,而且有可能改變對話(huà)的狀態(tài),造成對用戶(hù)的困擾。
3.在需要打斷(barge-in)功能的系統中,語(yǔ)音的起始點(diǎn)是必須的。在端點(diǎn)檢測找到語(yǔ)音的起始點(diǎn)時(shí),系統將停止提示音的播放。完成打斷功能。
端點(diǎn)檢測對識別系統的影響
隨著(zhù)語(yǔ)音識別應用的發(fā)展,越來(lái)越多的系統將打斷功能作為一種方便有效的應用模式。而打斷功能又直接依賴(lài)端點(diǎn)檢測。端點(diǎn)檢測對打斷功能的影響發(fā)生在判斷語(yǔ)音/非語(yǔ)音的過(guò)程出現錯誤時(shí)。表現在過(guò)于敏感的端點(diǎn)檢測產(chǎn)生的語(yǔ)音信號的誤警將產(chǎn)生錯誤的打斷。例如,提示音被很強的背景噪音或其它人的講話(huà)打斷,是因為端點(diǎn)檢測錯誤的將這些信號作為有效語(yǔ)音信號造成的。反之,如果端點(diǎn)檢測漏過(guò)了事實(shí)上的語(yǔ)音部分,而沒(méi)有檢測到語(yǔ)音。系統會(huì )表現出沒(méi)有反應,在用戶(hù)講話(huà)時(shí)還在播放提示音。端點(diǎn)檢測對識別系統的識別效果影響也很大。語(yǔ)音信號的起始點(diǎn)和結束點(diǎn)判斷有誤,有可能影響整個(gè)信號的完整性,在語(yǔ)句的開(kāi)頭或結尾漏掉一些有用的數據。當這種情況發(fā)生時(shí),很可能對識別的準確度有特別大影響。不完全的信息會(huì )使識別率降低。
商用端點(diǎn)檢測應具備的特性:
1.端點(diǎn)檢測的精確度高。
2.更好的背景噪聲和語(yǔ)音模型:使系統對背景噪聲,其它說(shuō)話(huà)人和非語(yǔ)音的聲音有很好的拒絕功能。
3.默認的系統相關(guān)參數有很好的適用性,而在有需要的現實(shí)環(huán)境中,可以通過(guò)系統調節來(lái)適應通話(huà)環(huán)境,改善端點(diǎn)檢測的效果。
4.對信道有自適應能力:在對話(huà)開(kāi)始后能很快適應當前的信道特征,使得端點(diǎn)檢測的準確度有進(jìn)一步提高。
5.獨特的識別服務(wù)器的反饋和非語(yǔ)音持續時(shí)間雙重結束點(diǎn)判定功能,有效的改善了語(yǔ)音結束點(diǎn)的判定。特別是對較長(cháng)的語(yǔ)句效果更加突出。
基于可靠的端點(diǎn)檢測技術(shù)和智能反饋,智能打斷功能不僅應該在一般的環(huán)境下工作出色,而且能有效的拒絕環(huán)境噪聲,非語(yǔ)音的高強噪聲(呼吸,關(guān)門(mén)等)環(huán)境中其它人的聲音。
http://www.ounistar.com/
http://www.ounistar.com/
