有專(zhuān)家說(shuō),語(yǔ)音識別用途廣泛,潛力巨大,但要真正實(shí)現人與計算機的自然交流卻很難,它不僅需要高深的基礎理論的突破,更需要大量的實(shí)際工作的積累。
語(yǔ)音交互就要實(shí)現?
1996年,IBM公司發(fā)布了VoiceType中文語(yǔ)音識別軟件,首次將其語(yǔ)音識別產(chǎn)品介紹給中國用戶(hù);1997年9月,IBM推出了ViaVoice中文連續語(yǔ)音識別系統,標志著(zhù)中文語(yǔ)音識別技術(shù)商業(yè)化進(jìn)程開(kāi)始啟動(dòng)。
然而,語(yǔ)音識別技術(shù)并不是一夜之間冒出來(lái)的神話(huà),自從有了計算機,人們就開(kāi)始了語(yǔ)音識別技術(shù)的研究,因此可以說(shuō)語(yǔ)音識別的歷史和計算機一樣長(cháng)。特別是在70年代前后,研究的脈絡(luò )日漸清晰,貝爾實(shí)驗室和IBM等都先后建立了專(zhuān)門(mén)的研究機構。今天這兩家公司在這一領(lǐng)域都已取得了顯著(zhù)的成果,并且在商業(yè)上應用成功,貝爾實(shí)驗室主要偏重于電信方面應用的語(yǔ)音識別系統,如電話(huà)查詢(xún)等;而IBM則偏重于商務(wù)應用,因而在連續語(yǔ)音識別上取得了不小的成功。
不談商業(yè)方面的應用,事實(shí)上,很多公司都提供語(yǔ)音識別的引擎(Engine),并且都表示能支持微軟的SAPI。看一看SAPI 4.0SUITE就不難發(fā)現,微軟在這方面的研究并不遜色,只是很奇怪它居然沒(méi)有將成果商業(yè)化。微軟同時(shí)提供了一系列引擎,如SpeechRecognition(語(yǔ)音識別)、Command&Control(發(fā)布指令并控制)、PhoneQuery(電話(huà)語(yǔ)音識別)、Texttospeech(文本語(yǔ)音轉換)等。
今天,許多用戶(hù)已能享受到語(yǔ)音技術(shù)的優(yōu)勢了,可以對計算機發(fā)送命令,或者要求計算機記錄用戶(hù)所說(shuō)的話(huà),以及將文本轉換成聲音朗讀出來(lái)。盡管如此,距離真正的人機自由交流的境界似乎還很遙遠。現在已有商用系統存在的主要問(wèn)題是:系統魯棒性還有待改進(jìn),如對于噪聲環(huán)境下或方言的語(yǔ)言識別率和穩健性等都不盡如人意。
不可否認,語(yǔ)音識別技術(shù)還有一段路需要走,要做到真正成功的商業(yè)化,它還需要在很多方面取得突破性進(jìn)展,這實(shí)際上也是其技術(shù)的未來(lái)走向。
語(yǔ)音識別難在哪兒?
計算機自動(dòng)語(yǔ)音識別就是讓計算機能聽(tīng)懂人說(shuō)話(huà)。這一問(wèn)題曾經(jīng)被一位知名的美國教授稱(chēng)之為是“比登月還難”的科學(xué)難題。其實(shí),人們很早就認識到語(yǔ)音識別對于人類(lèi)生活的重要性。世界上第一臺計算機問(wèn)世之后,馬上就有人想到要讓計算機聽(tīng)懂人說(shuō)話(huà)。所以說(shuō),語(yǔ)音識別的研究歷史與計算機的發(fā)展歷史一樣長(cháng)。計算機的發(fā)展已經(jīng)經(jīng)歷了好幾代,今天已經(jīng)進(jìn)入到了普通家庭。但是,語(yǔ)音識別方面的產(chǎn)品卻遲遲未能進(jìn)入市場(chǎng)。那么,它難在哪兒呢?
計算機語(yǔ)音識別是一個(gè)模式識別匹配的過(guò)程。在這個(gè)過(guò)程中,計算機首先要根據人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對輸入的語(yǔ)音信號進(jìn)行分析,并抽取所需的特征,在此基礎上建立語(yǔ)音識別所需的模板。而計算機在識別過(guò)程中要根據語(yǔ)音識別的整體模型,將計算機中存放的語(yǔ)音模板與輸入的語(yǔ)音信號的特征進(jìn)行比較,根據一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語(yǔ)音匹配的模板。然后,據此模板的定義,通過(guò)查表就可以給出計算機的識別結果。顯然,這種最優(yōu)的結果與特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準確等都有直接的關(guān)系。
一個(gè)語(yǔ)音識別系統性能好壞的關(guān)鍵首先是它所采用的語(yǔ)音模型能否真實(shí)地反映話(huà)音的物理變化規律,所用的語(yǔ)言模型能否表達自然語(yǔ)言所包含的豐富語(yǔ)言學(xué)知識。然而無(wú)論是語(yǔ)音信號還是人類(lèi)的自然語(yǔ)言都是隨機、多變和不穩定的,很難把握。這就是目前語(yǔ)音識別過(guò)程中的最大難點(diǎn)。
其次,模板訓練的好壞也直接關(guān)系到語(yǔ)音識別系統識別率的高低。為了得到一個(gè)好的模板,往往需要有大量的原始語(yǔ)音數據來(lái)訓練語(yǔ)音模型。因此,在開(kāi)始進(jìn)行語(yǔ)音識別研究之前,首先要建立起一個(gè)龐大的語(yǔ)音數據庫和語(yǔ)料數據庫。一個(gè)好的語(yǔ)音數據庫包括足夠數量、具有不同性別、年齡、口音說(shuō)話(huà)人的聲音,并且必須要有代表性,能均衡地反映實(shí)際使用情況。
有了語(yǔ)音數據庫及語(yǔ)音特征,就可以建立語(yǔ)音模型,并用語(yǔ)音數據庫中的語(yǔ)音來(lái)訓練這個(gè)語(yǔ)音模型。訓練過(guò)程是指選擇系統的某種最佳狀態(tài)(如對語(yǔ)音庫中的所有語(yǔ)音有最好的識別率),不斷地調整系統模型(或模板)的參數,使系統模型的性能不斷向這種最佳狀態(tài)逼近的過(guò)程。這是一個(gè)復雜的過(guò)程,要求計算機有強大的計算能力,并有很強的理論指導,才能保證得到良好的訓練結果。
當語(yǔ)音識別系統對語(yǔ)音進(jìn)行識別時(shí),相對來(lái)說(shuō),其識別過(guò)程要比訓練過(guò)程簡(jiǎn)單,對計算機的運算能力要求也很低,并且速度較快。這有利于實(shí)時(shí)地實(shí)現語(yǔ)音識別系統和進(jìn)行商品化開(kāi)發(fā)應用。
那么,制約語(yǔ)音識別技術(shù)發(fā)展的根本是什么呢?接受記者采訪(fǎng)的清華大學(xué)王作英教授認為,語(yǔ)音識別的關(guān)鍵是其依據的模型和算法,模型算法是計算機描述語(yǔ)音的能力能否抓住人的語(yǔ)音的本質(zhì)的關(guān)鍵。在語(yǔ)音識別領(lǐng)域,固然有資金實(shí)力、人力資源等的競爭,但最根本是其關(guān)鍵核心技術(shù)——模型和算法的競爭。
DTW逐漸淡出HMM占據統治地位
要建立一個(gè)語(yǔ)音識別系統僅有一個(gè)好的語(yǔ)音特征還不夠,還要有一個(gè)好的語(yǔ)音識別的模型和算法。在語(yǔ)音識別系統中通常分為兩個(gè)部分:聲學(xué)層部分主要研究如何充分利用語(yǔ)音信號中的信息;語(yǔ)音學(xué)層部分主要研究如何充分利用已有語(yǔ)音學(xué)知識來(lái)提高系統的識別率。目前,大家關(guān)注的中心是低層中聲學(xué)層部分所涉及的模型和算法。
目前,在研發(fā)語(yǔ)音識別系統時(shí)常用的算法有基于神經(jīng)網(wǎng)絡(luò )的訓練和識別算法、基于動(dòng)態(tài)時(shí)間歸整匹配(DTW)的識別算法和基于統計的隱含馬爾可夫模型(HMM)識別和訓練算法。
基于神經(jīng)網(wǎng)絡(luò )的訓練識別算法由于實(shí)現起來(lái)較復雜,且識別率并不見(jiàn)得比基于統計的語(yǔ)音識別模型好,因此,這種算法目前仍處于實(shí)驗室研究階段。
基于動(dòng)態(tài)時(shí)間歸整匹配的DTW算法從目前來(lái)看,可能是一個(gè)最為小巧的語(yǔ)音識別的算法。其系統開(kāi)銷(xiāo)小,識別速度快,在對付小詞匯量的語(yǔ)音命令控制系統中是一個(gè)非常有效的算法。但是,如果系統稍微復雜一些,這種算法就顯得力不從心了。
基于統計的HMM算法可能是目前最為成功的一種語(yǔ)音識別模型和算法了。目前所能見(jiàn)到的各種性能優(yōu)良的連續語(yǔ)音識別系統幾乎無(wú)一例外地采用了這種模型。這是因為這種數學(xué)模型出現的時(shí)間較早,人們對它的研究也比較深入,已建立起了完整的理論框架。從20世紀80年代初人們開(kāi)始用這種模型來(lái)描述語(yǔ)音信號后,就不斷有人對它進(jìn)行了各種改良和發(fā)展。這種隱含馬爾可夫模型的算法是將語(yǔ)音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀(guān)測到的(如這種狀態(tài)可以是語(yǔ)音的某個(gè)音素),而是以某種隱含的關(guān)系與語(yǔ)音的觀(guān)測量(或特征)相關(guān)聯(lián)。而這種隱含關(guān)系在HMM模型中通常以概率形式表現出來(lái),模型的輸出結果也以概率形式給出。這為系統最后給出一個(gè)穩健的判決創(chuàng )造了條件。
如今,各種形式的HMM模型和算法已日趨成熟,以它為基礎已經(jīng)形成了語(yǔ)音識別的整體框架模型,它統一了語(yǔ)音識別中聲學(xué)層和語(yǔ)音學(xué)層的算法結構,制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語(yǔ)音學(xué)層中已有的信息完美地結合在一起。因此,HMM語(yǔ)音識別模型與算法是迄今為止最為完美的一個(gè)語(yǔ)音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導作用。
HMM的“內傷”
許多從事語(yǔ)音識別技術(shù)研究的公司都把HMM當做“救命稻草”,對其展開(kāi)了大量的研究開(kāi)發(fā),隨著(zhù)語(yǔ)音識別研究工作的深入開(kāi)展,HMM語(yǔ)音識別方法愈來(lái)愈受到人們的重視,但與此同時(shí),人們也愈來(lái)愈認識到經(jīng)典HMM語(yǔ)音識別模型在一些重要方面存在嚴重的缺陷,這就是:
- 經(jīng)典HMM是一個(gè)齊次的Markov模型,狀態(tài)轉移概率與狀態(tài)駐留長(cháng)度無(wú)關(guān),與語(yǔ)音的實(shí)際過(guò)程不符;
- 經(jīng)典HMM現有的模型訓練算法和識別算法都是假設語(yǔ)音特征是相互獨立的,這也不符合語(yǔ)音信號的實(shí)際情況;
- 經(jīng)典HMM模型用于大詞匯表的識別系統時(shí),其模型的訓練量是災難性的;
- 模型的存儲量太大。
任何一個(gè)成功的語(yǔ)音識別模型,都是基于其參數具有聚類(lèi)性這一基礎上的。HMM模型之所以能達到很高的識別率,是由于反映其狀態(tài)的特征參數具有聚類(lèi)性,從而它必然是對應于語(yǔ)音學(xué)中的語(yǔ)音單位(如音素),聲學(xué)上則必然是對應于某種聲學(xué)單元或發(fā)聲器官的某種結構狀態(tài)。語(yǔ)音學(xué)的研究表明,語(yǔ)音單位(如音素)在詞中的長(cháng)度有一個(gè)相對平穩的分布。正是這種狀態(tài)長(cháng)度分布的相對平穩性破壞了HMM模型的齊次性結構。
DDBHMM浮出水面
王作英教授1988年年底向“863”計劃提交的“語(yǔ)音識別的改進(jìn)隱含馬爾可夫模型”,可以說(shuō)是對語(yǔ)音識別模型算法的一次重大革新。它指出了傳統的HMM模型在語(yǔ)音識別應用中存在的問(wèn)題,得到了一個(gè)基于段長(cháng)分布的非齊次隱含馬爾可夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)。以此理論為指導所設計的語(yǔ)音識別聽(tīng)寫(xiě)機系統在1994年~1998年的全國語(yǔ)音識別系統評測中取得三連冠,從而顯示了這一新模型的生命力和在這一研究領(lǐng)域內的領(lǐng)先水平。
HMM模型是在國際上在語(yǔ)音識別系統中被廣泛引用的一種模型,但是它有一個(gè)主要的缺點(diǎn),即根據詞模型推出的狀態(tài)段長(cháng)分布是指數分布,這不符合語(yǔ)音的本質(zhì)屬性。而王作英教授提出的DDBHMM(基于段長(cháng)分布的HMM)模型解決了這一缺陷。它是一個(gè)非齊次的HMM語(yǔ)音識別模型。在此模型中用狀態(tài)的段長(cháng)分布函數替代了齊次HMM中的狀態(tài)轉移矩陣,徹底拋棄了“平穩的假設”,而從非平穩的角度考慮問(wèn)題,使模型成為一種基于狀態(tài)段長(cháng)分布的隱含Markov模型。段長(cháng)分布函數的引入澄清了經(jīng)典HMM語(yǔ)音識別模型的許多矛盾。
同時(shí),由于非齊次HMM是一個(gè)有后效過(guò)程,不能用Bellman的動(dòng)態(tài)規劃求最大似然路徑,也不能用Baum的重新估值算法對模型參數進(jìn)行訓練。對于這類(lèi)有后效的多階段決策問(wèn)題,如果用完全搜索算法求解最佳路徑,其計算復雜性太大,甚至在現有硬件水平上無(wú)法實(shí)時(shí)運行。因而,必須建立新的非齊次HMM訓練算法和識別算法。DBBHMM比國際上流行的HMM語(yǔ)音識別模型有更好的識別性能和更低的計算復雜度(訓練算法比流行的Baum算法復雜度低兩個(gè)數量級)。由于該模型解除了對語(yǔ)音信號狀態(tài)的齊次性和對語(yǔ)音特征的非相關(guān)性的限制,因此為語(yǔ)音識別研究的深入發(fā)展提供了一個(gè)和諧的框架。
有好的模型只是一個(gè)開(kāi)始,還需要做大量的工作。以前的模型可以借助其他技術(shù)如神經(jīng)網(wǎng)絡(luò )技術(shù)改進(jìn)模型的不足,而DBBHMM模型的出現促進(jìn)了語(yǔ)音識別模型與算法的競爭與發(fā)展。未來(lái),在語(yǔ)音識別領(lǐng)域,基于HMM和DBBHMM兩種模型的語(yǔ)音識別系統將齊頭并進(jìn),展開(kāi)競爭。基于HMM的系統“走得早”,且有大量資金和技術(shù)力量的支持;后發(fā)的DBBHMM系統有理論優(yōu)勢,但需要做的工作卻很多,短期內兩種系統將共存。另外會(huì )不會(huì )出現更好的第三種模型算法,現在還不能斷定。
計算機世界網(wǎng)