隨著(zhù)激動(dòng)人心的新應用例如語(yǔ)音門(mén)戶(hù)(voice portal)和網(wǎng)上消息(web messaging)以及改進(jìn)的算法使語(yǔ)音技術(shù)逐漸成為一項被大眾接受和使用的技術(shù)。語(yǔ)音門(mén)戶(hù)提供使用自然語(yǔ)言命令訪(fǎng)問(wèn)Internet信息的方式,
網(wǎng)上消息是新的一種統一消息應用, 它把網(wǎng)站訪(fǎng)問(wèn)和傳統語(yǔ)音信箱,電子郵件和傳真等技術(shù)集成在一起。總之,
語(yǔ)音技術(shù)很有潛力成為下一個(gè)個(gè)人電腦,電話(huà)和其它電子設備的下一個(gè)關(guān)鍵的訪(fǎng)問(wèn)接口。
■ 機會(huì )在哪里? 語(yǔ)音門(mén)戶(hù)應用給具有語(yǔ)音技術(shù)的開(kāi)發(fā)商提供了很大的機會(huì )。根據Frost
& Sullivan*公司預測, 未來(lái)六年這一市場(chǎng)段會(huì )有54%的增長(cháng)**。公用網(wǎng)絡(luò )提供商, 本地交換提供商(LEC)和Internet服務(wù)提供商(ISP)等都在尋找提供不同于別人的服務(wù),
他們都很有可能進(jìn)入這一領(lǐng)域來(lái)提供利潤豐厚的增值服務(wù)。 同一消息應用應運而生是由于企業(yè)認識到跨平臺消息系統(語(yǔ)音,電子郵件和傳真)應用的優(yōu)點(diǎn)。網(wǎng)上消息則代表了一個(gè)很自然的功能上上的增強。Dot-com公司利用語(yǔ)音技術(shù)提供了訪(fǎng)問(wèn)他們網(wǎng)站服務(wù)器和分布式數據庫的另外一種方法。
這一演變將語(yǔ)音技術(shù)帶入到公眾中去, 這方面的需求也在不斷的增長(cháng)。 移動(dòng)電話(huà)的用戶(hù)一定很歡迎使用自然語(yǔ)音識別輸入而不是按鍵的輸入。 尤其是當現在移動(dòng)電話(huà)尺寸越來(lái)越小,語(yǔ)音輸入的優(yōu)勢也更加明顯。
■ 連續語(yǔ)音處理技術(shù) 創(chuàng )建增強的語(yǔ)音技術(shù)的平臺的技術(shù)稱(chēng)作連續語(yǔ)音處理,
簡(jiǎn)稱(chēng)CSP(Continuous Speech Processing ). 利用CSP和Dialogic? Dialogic?板卡結合在一起的新技術(shù),可以開(kāi)發(fā)出提供最高準確度和最好性能語(yǔ)音識別電話(huà)應用。
利用CSP開(kāi)發(fā)有以下5個(gè)主要的優(yōu)點(diǎn): - 節省開(kāi)支 - 整個(gè)系統是低成本的平臺
- 性能 - 減少系統延遲時(shí)間,改進(jìn)反應速度
- 準確度 - 更高的識別準確度
- 可擴展性 - 系統可由小到大擴展
- 密度 - 每個(gè)板卡經(jīng)濟的端口密度
在后面我們會(huì )繼續討論CSP技術(shù)的優(yōu)點(diǎn)。首先讓我們來(lái)看一下是CSP是利用哪些技術(shù)來(lái)實(shí)現的。
■ 底層技術(shù)實(shí)現 CSP是在現有語(yǔ)音技術(shù)上增加了新的算法來(lái)實(shí)現的。一個(gè)主要的功能模塊就是語(yǔ)音打斷(barge-in),它使一個(gè)用戶(hù)可以通過(guò)說(shuō)話(huà)來(lái)打斷語(yǔ)音提示。
一個(gè)語(yǔ)音識別引擎可以識別出用戶(hù)打斷所說(shuō)的話(huà)是什么。許多電話(huà)環(huán)境里,進(jìn)入系統的信號是多個(gè)信號的混合包括用戶(hù)的說(shuō)話(huà),語(yǔ)音提示的回聲和線(xiàn)路的噪音。考慮到這么多種變數,例如電話(huà)線(xiàn)的類(lèi)型和質(zhì)量還有說(shuō)話(huà)人的的不同語(yǔ)言,開(kāi)發(fā)語(yǔ)音打斷功能面對非常大的技術(shù)挑戰。首先,系統根據電話(huà)環(huán)境建立回聲特性的模型,然后把對向外播放語(yǔ)音提示的回聲進(jìn)入信號中的消除掉。使用CSP,過(guò)去需要大量CPU處理資源的工作就大大減輕而把這部分工作被放在板卡上一個(gè)DSP來(lái)進(jìn)行處理,這樣可以高效的管理語(yǔ)音檢測。CSP被設計用來(lái)優(yōu)化基于主機的(host-based)語(yǔ)音識別資源例如運行在主機上擁有很大詞匯庫的語(yǔ)音識別引擎(ASR)。
CSP使從語(yǔ)音板卡(analog, T-1/E-1,etc.)到主機處理器傳送)經(jīng)過(guò)預處理的語(yǔ)音數據流成為可能。 CSP功能里面有幾個(gè)關(guān)鍵的功能,它們對我們討論過(guò)的應用和市場(chǎng)段里起到關(guān)鍵的作用:
- 回聲消除(Echo Cancellation,簡(jiǎn)稱(chēng)EC) - 用于語(yǔ)音識別,IP電話(huà),DTMF和音頻檢測技術(shù)。主要用來(lái)把外發(fā)的信號的回聲從進(jìn)入信號里面清除。
- 全雙工操作 - 應用程序可以在同一個(gè)通道上同時(shí)接受和發(fā)送語(yǔ)音數據。
- 語(yǔ)音活動(dòng)檢測(Voice Activity Detector,簡(jiǎn)稱(chēng)VAD)
-檢測線(xiàn)路上是否有語(yǔ)音能量
- 語(yǔ)音打斷(Barge-In) - 當在某一個(gè)通道上檢測到語(yǔ)音能量,CSP可以被設置為自動(dòng)停止在那個(gè)通道上播放的提升語(yǔ)音。
這可以很快的中止提示音,接收用戶(hù)的輸入,從而提高識別的準確度。 如果不很快地中止提示語(yǔ)音,用戶(hù)很可能口吃或者說(shuō)話(huà)不清晰,那也會(huì )影響識別的性能。
-
語(yǔ)音事件通知 - 當檢測到線(xiàn)路上語(yǔ)音能量,CSP可以在不停止當前語(yǔ)音提示播放的時(shí)候給主機的處理器發(fā)出一個(gè)消息,語(yǔ)音識別的引擎可以做進(jìn)一步判斷以后停止提示音的播放。
- 預緩沖(Pre-Speech Buffer) - 進(jìn)入的語(yǔ)音數據被存在一個(gè)250毫秒的緩沖區里。 當檢測到語(yǔ)音能量,這一部分儲存在緩沖區里的語(yǔ)音就會(huì )被轉發(fā)到語(yǔ)音識別資源來(lái)被處理。這種預緩沖的里包含的關(guān)鍵信息在高識別準確率要求的時(shí)候是十分關(guān)鍵的。
- 統一的編程接口 (API) - 為了保證系統的可擴展性,不同密度的底層硬件之上,應用程序的編程接口必須要一樣。
■
CSP優(yōu)點(diǎn) 如果我們在有CSP和沒(méi)有的兩種情況下對呼叫流程進(jìn)行一下比較,可以看到CSP的優(yōu)勢是很明顯的。在沒(méi)有CSP的系統里,主機不斷的針對所有激活狀態(tài)的通道,從DSP取數據。
這就消耗主機CPU很多資源,進(jìn)而影響系統性能。當DSP不斷把語(yǔ)音包送到CPU,這種工作很可能占據90%到100%的CPU處理能力。而且,DSP還沒(méi)有辦法過(guò)濾掉無(wú)用的數據(例如沒(méi)有說(shuō)話(huà)的時(shí)間),這進(jìn)一步使系統性能下降。因此必須要安裝高性能處理平臺來(lái)彌補CPU的工作量。
當一個(gè)主叫方和一個(gè)有CSP的語(yǔ)音平臺進(jìn)行交互時(shí),整個(gè)過(guò)程中都是在播放提示語(yǔ)音。主叫方可以在提示音播放過(guò)程中任何時(shí)刻說(shuō)話(huà),插入語(yǔ)音命令。這加快了語(yǔ)音菜單導航。后臺處理系統同樣高效。系統平臺只需要在有語(yǔ)音輸入的時(shí)候才交給主機進(jìn)行語(yǔ)音處理,這通常只占應用程序10%到15%的處理時(shí)間。CSP利用DSP的VAD功能只把有語(yǔ)音的部分數據交給主機來(lái)處理,節省了主機處理的資源。上面功能是利用板卡上DSP的檢測模塊來(lái)完成的。
預處理緩沖區的說(shuō)明 語(yǔ)音打斷功能是由板卡上的預處理緩沖區和語(yǔ)音能量檢測兩個(gè)模塊來(lái)實(shí)現的,把主機的CPU從連續數據處理的負擔中解脫出來(lái)。主機只有當板卡產(chǎn)生一個(gè)事件例如檢測到語(yǔ)音以后才需要開(kāi)始工作。還有其它的好處。使主機CPU不再處理無(wú)用的數據可以減少系統負荷,這也是系統可以擴大到幾百個(gè)端口。
還有,預處理緩沖區為應用程序開(kāi)發(fā)者提供了更高的可靠性和準確度。 擁有語(yǔ)音打斷的語(yǔ)音系統會(huì )把去除回聲后的數據打成很小的包(小于100毫秒)從語(yǔ)音板卡發(fā)到主機上的語(yǔ)音識別引擎。這樣做可以使主叫方語(yǔ)音的檢測和確認花更少的時(shí)間,達到更高識別的準確度。客戶(hù)也會(huì )感覺(jué)系統很友好,因為他們一說(shuō)話(huà)系統就停止播放提示語(yǔ)音了。
選擇很明確:在板卡上做預處理緩沖區而不是把所有語(yǔ)音檢測都放到主機上,在今天要求可擴展性和高密度的系統中是必需的。 ■
Recognizing the Benefits Internet的成功和電子商務(wù)的增長(cháng)為語(yǔ)音技術(shù)創(chuàng )建了新的機會(huì ),也提出了新的需求,這些新的需求只能用類(lèi)似CSP這樣的語(yǔ)音處理結構來(lái)實(shí)現。除了結構,CSP也提供了關(guān)鍵的優(yōu)點(diǎn),應用程序開(kāi)發(fā)商可以開(kāi)發(fā)新的功能投入市場(chǎng)。
準確度 CSP提供很多功能類(lèi)似語(yǔ)音打斷,預處理緩沖區,回聲消除增加了客戶(hù)的滿(mǎn)意度,他們不會(huì )有過(guò)去的體驗過(guò)的關(guān)于語(yǔ)音技術(shù)的不好的感受。背景音,靜電和不好的線(xiàn)路質(zhì)量利用環(huán)境噪音閥值被減輕或者消除了。這究使這個(gè)平臺可以被應用到任何電話(huà)環(huán)境,給開(kāi)發(fā)者提供進(jìn)入不同市場(chǎng)的堅實(shí)的基礎。
密度/可擴展性 CSP提供4到120路不同的密度。因為很多語(yǔ)音識別需要的關(guān)鍵模塊在板上被支持了,減少主機CPU處理連續語(yǔ)音數據的負荷。當在一臺機箱里面插多塊高密度板卡,這個(gè)系統可以輕松擴展到幾百線(xiàn)。
節 約 CSP節省了實(shí)施費用和運營(yíng)費用。因為語(yǔ)音門(mén)戶(hù)和網(wǎng)上消息應用都是在共享的主機上,空間的考慮是很重要的。高密度的系統可以運行在一臺機箱里就可以減少系統所需的空間。
而且,板卡級模塊使昂貴的主機平臺不是必須。使用比較便宜的處理器就可以達到可接受的性能。從運營(yíng)費用來(lái)考慮,使用了類(lèi)似語(yǔ)音打斷,回聲消除和預處理緩沖區,減少了呼叫的時(shí)間,單位時(shí)間內能接入的電話(huà)就增加了。
應用提供商也需要考慮到節約。訪(fǎng)問(wèn)帶有語(yǔ)音功能的應用大多是免費電話(huà)。如果每個(gè)呼叫的時(shí)間可以縮短,電話(huà)費也會(huì )相應減少。 最重要的優(yōu)點(diǎn)就是改進(jìn)了客戶(hù)的服務(wù)。獲得新客戶(hù)是昂貴的。利用CSP提供能輕松導航和高準確度,你可以更好的留住你現有的客戶(hù),同時(shí)把你的時(shí)間和精力放在尋找新的有利潤的服務(wù)上來(lái)吸引新的客戶(hù)。
性能提高 CSP提供了別的電話(huà)平臺沒(méi)有的高性能。語(yǔ)音打斷是任何一個(gè)語(yǔ)音導航系統中的關(guān)鍵成分。讓用戶(hù)可以有一個(gè)與計算機的對話(huà)是用戶(hù)有更舒適的體驗。如果沒(méi)有語(yǔ)音打斷,用戶(hù)會(huì )覺(jué)得他們被系統所控制而感覺(jué)不舒服。
語(yǔ)音打斷的準確度也是很關(guān)鍵的。一些系統會(huì )被背景噪音或者其它非語(yǔ)音時(shí)間所打斷。 使用者就會(huì )繼續等待系統的提示選項盡管這時(shí)候系統已經(jīng)被不真實(shí)的語(yǔ)音所打斷。高級的系統都會(huì )使用負載的語(yǔ)音檢測模塊避免不小心的輸入打斷語(yǔ)音提示。如果這種高級的系統沒(méi)有硬件的幫忙,大量的主機處理能力都這些前端處理所耗費了,最終將影響到系統的密度和性能。
CSP使使用者感覺(jué)更好。板卡上的語(yǔ)音檢測模塊和預處理緩沖區使板卡級的模塊可以過(guò)濾提交給主機CPU的數據流。只有語(yǔ)音說(shuō)話(huà)被檢測和獲得。因此,CPU的負荷很小,語(yǔ)音事件更加準確發(fā)給識別軟件。
最終的結果就是更高的識別率和滿(mǎn)意的客戶(hù)。 ■ Will Your Voice
Be Heard? 如果你希望提供先進(jìn)的語(yǔ)音處理應用,你應該使用連續語(yǔ)音處理平臺。CSP提供業(yè)界對下一代語(yǔ)音應用如語(yǔ)音門(mén)戶(hù)和網(wǎng)上消息提供了最好的支持。 **Frost
and Sullivan, "Speech Recognition," April, 2000, p. 31. 00-6556-002
02-23-01 |