首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品


語(yǔ)音識別技術(shù)及發(fā)展

陳方  高升

   本文簡(jiǎn)要介紹了語(yǔ)音識別技術(shù)的發(fā)展歷史,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰,最后討論了語(yǔ)音識別在通信等領(lǐng)域中的應用。

——機器能聽(tīng)懂人類(lèi)的語(yǔ)言嗎?我們能扔掉鍵盤(pán)、鼠標用自然語(yǔ)言操縱計算機嗎?隨著(zhù)語(yǔ)音識別技術(shù)的發(fā)展,夢(mèng)想正在變?yōu)楝F實(shí)。

——語(yǔ)音識別以語(yǔ)音為研究對象,它是語(yǔ)音信號處理的一個(gè)重要研究方向,是模式識別的一個(gè)分支,涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計算機科學(xué)以及信號處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話(huà)時(shí)的表情、手勢等行為動(dòng)作可幫助對方理解),其最終目標是實(shí)現人與機器進(jìn)行自然語(yǔ)言通信。

——本文將簡(jiǎn)要介紹語(yǔ)音識別的發(fā)展歷史,采用的關(guān)鍵技術(shù),面臨的困難與挑戰以及廣闊的應用前景。

1 語(yǔ)音識別的發(fā)展歷史

——語(yǔ)音識別的研究工作大約開(kāi)始于50年代,當時(shí)AT& T Bell實(shí)驗室實(shí)現了第一個(gè)可識別十個(gè)英文數字的語(yǔ)音識別系統——Audry系統。

——60年代,計算機的應用推動(dòng)了語(yǔ)音識別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規劃(DP)和線(xiàn)性預測分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號產(chǎn)生模型的問(wèn)題,對語(yǔ)音識別的發(fā)展產(chǎn)生了深遠影響。

——70年代,語(yǔ)音識別領(lǐng)域取得了突破。在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上,實(shí)現了基于線(xiàn)性預測倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識別系統。

——80年代,語(yǔ)音識別研究進(jìn)一步走向深入,其顯著(zhù)特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò )(ANN)在語(yǔ)音識別中的成功應用。HMM模型的廣泛應用應歸功于A(yíng)T& T Bell實(shí)驗室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數學(xué)模型工程化,從而為更多研究者了解和認識。ANN和HMM模型建立的語(yǔ)音識別系統,性能相當。

——進(jìn)入90年代,隨著(zhù)多媒體時(shí)代的來(lái)臨,迫切要求語(yǔ)音識別系統從實(shí)驗室走向實(shí)用。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著(zhù)名公司都為語(yǔ)音識別系統的實(shí)用化開(kāi)發(fā)研究投以巨資。

——我國語(yǔ)音識別研究工作一直緊跟國際水平,國家也很重視,并把大詞匯量語(yǔ)音識別的研究列入“863”計劃,由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開(kāi)發(fā)。鑒于中國未來(lái)龐大的市場(chǎng),國外也非常重視漢語(yǔ)語(yǔ)音識別的研究。美國、新加坡等地聚集了一批來(lái)自大陸、臺灣、香港等地的學(xué)者,研究成果已達到相當高水平。因此,國內除了要加強理論研究外,更要加快從實(shí)驗室演示系統到商品的轉化。

2  語(yǔ)音識別技術(shù)

——首先介紹一下語(yǔ)音識別系統的分類(lèi)方式及依據。

——根據對說(shuō)話(huà)人說(shuō)話(huà)方式的要求,可以分為孤立字(詞)語(yǔ)音識別系統,連接字語(yǔ)音識別系統以及連續語(yǔ)音識別系統。

——根據對說(shuō)話(huà)人的依賴(lài)程度可以分為特定人和非特定人語(yǔ)音識別系統。

——根據詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識別系統。

——不同的語(yǔ)音識別系統,雖然具體實(shí)現細節有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語(yǔ)音識別系統的實(shí)現過(guò)程如圖1所示。

——語(yǔ)音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則及模型訓練技術(shù)三個(gè)方面。此外,還涉及到語(yǔ)音識別單元的選取。

——(1)語(yǔ)音識別單元的選取

——選擇識別單元是語(yǔ)音識別研究的第一步。語(yǔ)音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。

——單詞(白)單元廣泛應用于中小詞匯語(yǔ)音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務(wù)繁重,模型匹配算法復雜,難以滿(mǎn)足實(shí)時(shí)性要求。

——音節單元多見(jiàn)于漢語(yǔ)語(yǔ)音識別,主要因為漢語(yǔ)是單音節結構的語(yǔ)言,而英語(yǔ)是多音節,并且漢語(yǔ)雖然有大約1300個(gè)音節,但若不考慮聲調,約有408個(gè)無(wú)調音節,數量相對較少。因此,對于中、大詞匯量漢語(yǔ)語(yǔ)音識別系統來(lái)說(shuō),以音節為識別單元基本是可行的。

——音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識別系統也在越來(lái)越多地采用。原因在于漢語(yǔ)音節僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構成,且聲韻母聲學(xué)特性相差很大。實(shí)際應用中常把聲母依后續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由于協(xié)同發(fā)音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。

——(2)特征參數提取技術(shù)

——語(yǔ)音信號中含有豐富的信息,但如何從中提取出對語(yǔ)音識別有用的信息呢?特征提取就是完成這項工作,它對語(yǔ)音信號進(jìn)行分析處理,去除對語(yǔ)音識別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識別的重要信息。對于非特定人語(yǔ)音識別來(lái)講,希望特征參數盡可能多的反映語(yǔ)義信息,盡量減少說(shuō)話(huà)人的個(gè)人信息(對特定人語(yǔ)音識別來(lái)講,則相反)。從信息論角度講,這是信息壓縮的過(guò)程。

——線(xiàn)性預測(LP)分析技術(shù)是目前應用廣泛的特征參數提取技術(shù),許多成功的應用系統都采用基于LP技術(shù)提取的倒譜參數。但線(xiàn)性預測模型是純數學(xué)模型,沒(méi)有考慮人類(lèi)聽(tīng)覺(jué)系統對語(yǔ)音的處理特點(diǎn)。

——Mel參數和基于感知線(xiàn)性預測(PLP)分析提取的感知線(xiàn)性預測倒譜,在一定程度上模擬了人耳對語(yǔ)音的處理特點(diǎn),應用了人耳聽(tīng)覺(jué)感知方面的一些研究成果。實(shí)驗證明,采用這種技術(shù),語(yǔ)音識別系統的性能有一定提高。

——也有研究者嘗試把小波分析技術(shù)應用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。

——(3)模式匹配及模型訓練技術(shù)

——模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。

——語(yǔ)音識別所應用的模式匹配和模型訓練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò )(ANN)。

——DTW是較早的一種模式匹配和模型訓練技術(shù),它應用動(dòng)態(tài)規劃方法成功解決了語(yǔ)音信號特征參數序列比較時(shí)時(shí)長(cháng)不等的難題,在孤立詞語(yǔ)音識別中獲得了良好性能。但因其不適合連續語(yǔ)音大詞匯量語(yǔ)音識別系統,目前已被HMM模型和ANN替代。

——HMM模型是語(yǔ)音信號時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機過(guò)程共同描述信號的統計特性,其中一個(gè)是隱蔽的(不可觀(guān)測的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀(guān)察矢量的隨機過(guò)程(可觀(guān)測的)。隱蔽Markor鏈的特征要靠可觀(guān)測到的信號特征揭示。這樣,語(yǔ)音等時(shí)變信號某一段的特征就由對應狀態(tài)觀(guān)察符號的隨機過(guò)程描述,而信號隨時(shí)間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結構、狀態(tài)轉移概率及描述觀(guān)察符號統計特性的一組隨機函數。按照隨機函數的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數,簡(jiǎn)稱(chēng)DHMM)和連續隱馬爾可夫模型(采用連續概率密度函數,簡(jiǎn)稱(chēng)CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來(lái)講,在訓練數據足夠的,CHMM優(yōu)于DHMM和SCHMM。

——HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。

——人工神經(jīng)元網(wǎng)絡(luò )在語(yǔ)音識別中的應用是現在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應非線(xiàn)性動(dòng)力學(xué)系統,模擬了人類(lèi)神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現在已有人研究如何把二者的優(yōu)點(diǎn)有機結合起來(lái),從而提高整個(gè)模型的魯棒性。

3  語(yǔ)音識別的困難與對策

——目前,研究工作進(jìn)展緩慢,主要表現在理論上一直沒(méi)有突破。雖然各種新的修正方法不斷涌現,但其普遍適用性都值得商榷。

——具體來(lái)講,困難主要表現在:

——語(yǔ)音識別系統的適應性差,主要體現在對環(huán)境依賴(lài)性強,即在某種環(huán)境下采集到的語(yǔ)音訓練系統只能在這種環(huán)境下應用,否則系統性能將急劇下降;另外一個(gè)問(wèn)題是對用戶(hù)的錯誤輸入不能正確響應,使用不方便。

——高噪聲環(huán)境下語(yǔ)音識別進(jìn)展困難,因為此時(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。

——語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識量化、建模并用于語(yǔ)音識別,還需研究。而語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續語(yǔ)音識別中是非常重要的。

——我們對人類(lèi)的聽(tīng)覺(jué)理解、知識積累和學(xué)習機制以及大腦神經(jīng)系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用于語(yǔ)音識別,還有一個(gè)艱難的過(guò)程。

——語(yǔ)音識別系統從實(shí)驗室演示系統到商品的轉化過(guò)程中還有許多具體問(wèn)題需要解決,識別速度、拒識問(wèn)題以及關(guān)鍵詞(句)檢測技術(shù)(即從連續語(yǔ)音中去除諸如“啊”、“唉”等語(yǔ)音,獲得真正待識別的語(yǔ)音部分)等等技術(shù)細節要解決。

——為了解決這些問(wèn)題,研究人員提出了各種各樣的方法,如自適應訓練,基于最大互信息準則(MMI)和最小區別信息準則(MDI)的區別訓練和“矯正”訓練;應用人耳對語(yǔ)音信號的處理特點(diǎn),分析提取特征參數,應用人工神經(jīng)元網(wǎng)絡(luò )……所有這些努力都取得了一定成績(jì)。

——不過(guò),如果要使語(yǔ)音識別系統性能有大的提高,就要綜合應用語(yǔ)言學(xué)、心理學(xué)、生理學(xué)以及信號處理等各門(mén)學(xué)科有關(guān)知識,只用其中一種是不行的。

4  語(yǔ)音識別的應用

——目前世界各國都加快了語(yǔ)音識別應用系統的研究開(kāi)發(fā),并已有一些實(shí)用的語(yǔ)音識別系統投入商業(yè)運營(yíng)。在美國語(yǔ)音識別系統的銷(xiāo)售額逐年上升,由于使用了語(yǔ)音識別系統,為企業(yè)贏(yíng)得了巨額收入。

——比較典型而成功的語(yǔ)音識別系統有AT&T于1992年開(kāi)發(fā)的VRCP系統。該系統是有五個(gè)單詞(collect,person,third number,operator和calling card)的非特定人小詞匯量語(yǔ)音識別系統,現已應用于A(yíng)T&T通信網(wǎng)上,可以實(shí)現自動(dòng)話(huà)務(wù)員協(xié)助式呼叫,代替話(huà)務(wù)員完成五種呼叫類(lèi)型,即

——collect call——受話(huà)人付費電話(huà),命令字col1ect

——person-person-call——定人呼叫,命令字person

——third-party-billing-call——第三方付費電話(huà),命令字third number

——operator-assisted call——話(huà)務(wù)員協(xié)助呼叫,命令字operator

——credit card call——信用卡呼叫,命令字calling card

——為使用戶(hù)使用方便,系統配有語(yǔ)音提示告訴用戶(hù)如何使用。該系統所具有的關(guān)鍵詞檢測技術(shù)可從句子中查找到五個(gè)命令字中的一個(gè),從而使用戶(hù)在講話(huà)時(shí)更加自然,如可以講“collect call please”,整個(gè)系統的正確識別率超過(guò)99%。

——此外,已經(jīng)實(shí)用的系統還有AT & T 800語(yǔ)音識別服務(wù)系統,NTT ANSER語(yǔ)音識別銀行服務(wù)系統,Northen Telecom股票價(jià)格行情系統,使得原本手工操作的工作用語(yǔ)音就可方便地完成。

——從語(yǔ)音識別技術(shù)的發(fā)展可以看出,科學(xué)技術(shù)推動(dòng)了社會(huì )發(fā)展,滿(mǎn)足人們的需求,社會(huì )需求也反過(guò)來(lái)推動(dòng)科學(xué)技術(shù)發(fā)展。多媒體時(shí)代的來(lái)臨,迫切要求解決自動(dòng)語(yǔ)音識別的難題,必然推動(dòng)語(yǔ)音識別理論和應用研究的進(jìn)展。估計在本世紀最后幾年至二十一世紀初,語(yǔ)音識別技術(shù)將會(huì )在理論上和應用上都取得突破性進(jìn)展。到那時(shí),我們將體會(huì )到語(yǔ)音識別帶來(lái)的種種便利。



相關(guān)鏈接:
主要語(yǔ)音引擎及開(kāi)發(fā)工具 2002-01-30
聲揚語(yǔ)音識別系列開(kāi)發(fā)工具 2002-01-30
ASR:“說(shuō)得出做得到” 2002-01-30
IBM ViaVoice語(yǔ)音軟件開(kāi)發(fā)工具 2002-01-30
語(yǔ)音識別的應用前景 2002-01-30

分類(lèi)信息:     技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 都安| 赤水市| 莎车县| 巩义市| 榆中县| 惠州市| 临海市| 伊宁市| 永和县| 大方县| 昌邑市| 阿坝县| 宜兰县| 托克托县| 绍兴县| 连云港市| 府谷县| 海南省| 嘉黎县| 屏东县| 九寨沟县| 蓝山县| 调兵山市| 四子王旗| 天柱县| 阿合奇县| 绍兴县| 泰顺县| 鞍山市| 沾化县| 达孜县| 萨嘎县| 安仁县| 双鸭山市| 徐汇区| 越西县| 兴和县| 郁南县| 霍林郭勒市| 舞阳县| 墨竹工卡县| http://444 http://444 http://444 http://444 http://444 http://444