1、首先,讓我們看看人體的聲音系統是如何進(jìn)行工作的。人體的空氣通過(guò)肺,然后通過(guò)導管傳遞到喉嚨。喉嚨本身是一個(gè)非常復雜的系統,包括發(fā)音的主要核心部分-聲帶。人體嘴唇,鼻腔,咽喉等通過(guò)振蕩等處理流程共同控制了發(fā)音,頻率,男女發(fā)音等不同的語(yǔ)音參數。

人的語(yǔ)言系統可以轉化成一個(gè)工程化的處理流程來(lái)模擬真正的人體發(fā)音。通過(guò)工程轉化以后的示例結果如下。因為性別的不同,男性和女性的音高有所不同,女性的范圍大概在120-500Hz之間,男性則為50-250hz 之間。

2、語(yǔ)音識別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響:
- 每個(gè)人都發(fā)音都是獨特的,而且每個(gè)人都口音也不同。
- 每個(gè)人都說(shuō)話(huà)方式也完全不同,在有壓力的狀態(tài)下和無(wú)放松環(huán)境中,語(yǔ)音可能完全不同。
- 講話(huà)環(huán)境不同可能導致不同的語(yǔ)音信號,增加了語(yǔ)音識別的復雜程度。
總體來(lái)說(shuō),語(yǔ)音識別的基本流程概括如下:

- 根據以上圖例說(shuō)明,基本的語(yǔ)音識別流程大概幾個(gè)主要的處理流程。首先原始的語(yǔ)音通過(guò)Feature Extraction 功能提取過(guò)程,此過(guò)程通過(guò)各種環(huán)境變量,把原始語(yǔ)音中有價(jià)值的語(yǔ)音數據提取出來(lái),過(guò)濾掉一些不相關(guān)的數據,形成一組緊湊,穩定的,可識別的數據,以方便通過(guò)數據模型來(lái)進(jìn)行處理。
- 在模式識別中,此處理流程需要通過(guò)語(yǔ)法,語(yǔ)音模型和詞匯處理來(lái)對提取出來(lái)的語(yǔ)音進(jìn)行加工。在模式識別處理中,識別模型使用了Hidden Markov Models (HMM) 模型來(lái)進(jìn)行處理。HMM是一種數學(xué)結構模型,它分為兩個(gè)部分。第一個(gè)部分是把語(yǔ)音按序轉化成一種有方向性的圖形。第二部分在給定的狀態(tài)下,把所需功能進(jìn)行模式化處理。如果大家需要了解更多具體的HMM細節,請參考相關(guān)技術(shù)文檔。
3、Endpoint detection(終端檢測)是針對背景噪音進(jìn)行處理。它主要解決的問(wèn)題是來(lái)自背景噪音的連續信號中部分獨立的語(yǔ)音進(jìn)行分析處理。比較早的語(yǔ)音識別技術(shù)只能識別各自獨立的,缺乏對終端檢測的準確判斷。比較新的語(yǔ)音識別技術(shù)中可以對識別連續的語(yǔ)音。新語(yǔ)音識別技術(shù)可以通過(guò)訓練樣本來(lái)進(jìn)行獲得準確的結果。
在話(huà)語(yǔ)識別中,兩個(gè)主要的任務(wù)就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實(shí)現講話(huà)人的驗證,講話(huà)人通過(guò)密碼輸入,其他相關(guān)編碼來(lái)識別器身份。講話(huà)者的驗證最終輸出的結果是接受此驗證或者拒絕此驗證;

而speaker identification 的主要作用是從講話(huà)人中間確定某一個(gè)的身份。最終的輸出結果是以模型為基礎,從各種講話(huà)人中找到最相似的結果。

Text-to-Speech(TTS)文本語(yǔ)音合成也是MRCP重要的一個(gè)技術(shù)概念。其主要目的是通過(guò)前后端引擎的處理,把自然文本語(yǔ)言轉化成語(yǔ)音流的過(guò)程。通過(guò)合成處理以后,其結果必須是正確的,智能的,當然也要具有語(yǔ)言的自然性。語(yǔ)音IVR就是一個(gè)非常典型的例子。以下圖例是一個(gè)語(yǔ)音合成的實(shí)現流程圖:

前端處理主要負責用戶(hù)輸入的文本文字經(jīng)過(guò)解析分析對比,然后形成語(yǔ)句單元,聲音音量等相關(guān)標簽。后端處理則根據前端的輸出結果存儲,重新排序,存儲,和數據庫的語(yǔ)句查詢(xún)重新構建語(yǔ)音流。后端處理中的Unit Selection是一個(gè)比較重要的技術(shù)話(huà)題,它涉及了數據庫存儲方面的問(wèn)題和語(yǔ)義單元存儲方式的問(wèn)題,包括存儲全句還是偏語(yǔ)或者其他的關(guān)鍵詞等。我們這里不再做過(guò)多討論。在未來(lái)的MRCP合成中會(huì )涉及。
4、在本期的分享學(xué)習中,我們介紹了幾個(gè)基本的關(guān)于語(yǔ)音識別的概念和基本的處理流程。因為篇幅的關(guān)系和討論的側重點(diǎn)不同,這其中沒(méi)有涉及很多重要的概念,例如統計模型,語(yǔ)言模型,訓練,Mel-cepstrum等話(huà)題。我們主要把未來(lái)需要的幾個(gè)重點(diǎn)概念和處理流程做了簡(jiǎn)要介紹,結合了幾個(gè)拓撲圖來(lái)幫助大家進(jìn)一步了解語(yǔ)音識別的技術(shù)核心要素。當然,這些內容遠遠不能涵蓋語(yǔ)音識別的技術(shù)深度,并且難免存在很多問(wèn)題,用戶(hù)需要自己通過(guò)語(yǔ)音識別的權威技術(shù)資料做進(jìn)一步的研究。


關(guān)注微信公眾號:asterisk-cn,獲得有價(jià)值的行業(yè)分享
freepbx 技術(shù)論壇:www.ippbx.org.cn
Asterisk, freepbx技術(shù)文檔: www.freepbx.org.cn
歐米(Omni)智能客服解決方案
融合通信商業(yè)解決方案,協(xié)同解決方案首選產(chǎn)品:www.hiastar.com