亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)　　語音合成產(chǎn)品

語音技術(shù)成為主流技術(shù)

　　隨著激動(dòng)人心的新應(yīng)用例如語音門戶(voice portal)和網(wǎng)上消息(web messaging)以及改進(jìn)的算法使語音技術(shù)逐漸成為一項(xiàng)被大眾接受和使用的技術(shù)。語音門戶提供使用自然語言命令訪問Internet信息的方式，網(wǎng)上消息是新的一種統(tǒng)一消息應(yīng)用，它把網(wǎng)站訪問和傳統(tǒng)語音信箱，電子郵件和傳真等技術(shù)集成在一起�？傊�，語音技術(shù)很有潛力成為下一個(gè)個(gè)人電腦，電話和其它電子設(shè)備的下一個(gè)關(guān)鍵的訪問接口。

■ 機(jī)會(huì)在哪里？

　　語音門戶應(yīng)用給具有語音技術(shù)的開發(fā)商提供了很大的機(jī)會(huì)。根據(jù)Frost & Sullivan*公司預(yù)測，未來六年這一市場段會(huì)有54％的增長**。公用網(wǎng)絡(luò)提供商，本地交換提供商(LEC)和Internet服務(wù)提供商(ISP)等都在尋找提供不同于別人的服務(wù)，他們都很有可能進(jìn)入這一領(lǐng)域來提供利潤豐厚的增值服務(wù)。

　　同一消息應(yīng)用應(yīng)運(yùn)而生是由于企業(yè)認(rèn)識(shí)到跨平臺(tái)消息系統(tǒng)（語音，電子郵件和傳真）應(yīng)用的優(yōu)點(diǎn)。網(wǎng)上消息則代表了一個(gè)很自然的功能上上的增強(qiáng)。Dot-com公司利用語音技術(shù)提供了訪問他們網(wǎng)站服務(wù)器和分布式數(shù)據(jù)庫的另外一種方法。這一演變將語音技術(shù)帶入到公眾中去，這方面的需求也在不斷的增長。移動(dòng)電話的用戶一定很歡迎使用自然語音識(shí)別輸入而不是按鍵的輸入。尤其是當(dāng)現(xiàn)在移動(dòng)電話尺寸越來越小，語音輸入的優(yōu)勢(shì)也更加明顯。

■ 連續(xù)語音處理技術(shù)

　　創(chuàng)建增強(qiáng)的語音技術(shù)的平臺(tái)的技術(shù)稱作連續(xù)語音處理, 簡稱CSP(Continuous Speech Processing ). 利用CSP和Dialogic? Dialogic?板卡結(jié)合在一起的新技術(shù)，可以開發(fā)出提供最高準(zhǔn)確度和最好性能語音識(shí)別電話應(yīng)用。

　　利用CSP開發(fā)有以下5個(gè)主要的優(yōu)點(diǎn)：

節(jié)省開支 - 整個(gè)系統(tǒng)是低成本的平臺(tái)
性能 - 減少系統(tǒng)延遲時(shí)間，改進(jìn)反應(yīng)速度
準(zhǔn)確度 - 更高的識(shí)別準(zhǔn)確度
可擴(kuò)展性 - 系統(tǒng)可由小到大擴(kuò)展
密度 - 每個(gè)板卡經(jīng)濟(jì)的端口密度

　　在后面我們會(huì)繼續(xù)討論CSP技術(shù)的優(yōu)點(diǎn)。首先讓我們來看一下是CSP是利用哪些技術(shù)來實(shí)現(xiàn)的。

■ 底層技術(shù)實(shí)現(xiàn)

　　CSP是在現(xiàn)有語音技術(shù)上增加了新的算法來實(shí)現(xiàn)的。一個(gè)主要的功能模塊就是語音打斷(barge-in)，它使一個(gè)用戶可以通過說話來打斷語音提示。一個(gè)語音識(shí)別引擎可以識(shí)別出用戶打斷所說的話是什么。許多電話環(huán)境里，進(jìn)入系統(tǒng)的信號(hào)是多個(gè)信號(hào)的混合包括用戶的說話，語音提示的回聲和線路的噪音�？紤]到這么多種變數(shù)，例如電話線的類型和質(zhì)量還有說話人的的不同語言，開發(fā)語音打斷功能面對(duì)非常大的技術(shù)挑戰(zhàn)。首先，系統(tǒng)根據(jù)電話環(huán)境建立回聲特性的模型，然后把對(duì)向外播放語音提示的回聲進(jìn)入信號(hào)中的消除掉。使用CSP，過去需要大量CPU處理資源的工作就大大減輕而把這部分工作被放在板卡上一個(gè)DSP來進(jìn)行處理，這樣可以高效的管理語音檢測。CSP被設(shè)計(jì)用來優(yōu)化基于主機(jī)的(host-based)語音識(shí)別資源例如運(yùn)行在主機(jī)上擁有很大詞匯庫的語音識(shí)別引擎(ASR)。 CSP使從語音板卡(analog, T-1/E-1,etc.)到主機(jī)處理器傳送)經(jīng)過預(yù)處理的語音數(shù)據(jù)流成為可能。

　　CSP功能里面有幾個(gè)關(guān)鍵的功能，它們對(duì)我們討論過的應(yīng)用和市場段里起到關(guān)鍵的作用：

回聲消除(Echo Cancellation,簡稱EC) - 用于語音識(shí)別，IP電話，DTMF和音頻檢測技術(shù)。主要用來把外發(fā)的信號(hào)的回聲從進(jìn)入信號(hào)里面清除。
全雙工操作 - 應(yīng)用程序可以在同一個(gè)通道上同時(shí)接受和發(fā)送語音數(shù)據(jù)。
語音活動(dòng)檢測(Voice Activity Detector，簡稱VAD) -檢測線路上是否有語音能量
語音打斷(Barge-In) - 當(dāng)在某一個(gè)通道上檢測到語音能量，CSP可以被設(shè)置為自動(dòng)停止在那個(gè)通道上播放的提升語音。這可以很快的中止提示音，接收用戶的輸入，從而提高識(shí)別的準(zhǔn)確度。如果不很快地中止提示語音，用戶很可能口吃或者說話不清晰，那也會(huì)影響識(shí)別的性能。
語音事件通知 - 當(dāng)檢測到線路上語音能量，CSP可以在不停止當(dāng)前語音提示播放的時(shí)候給主機(jī)的處理器發(fā)出一個(gè)消息，語音識(shí)別的引擎可以做進(jìn)一步判斷以后停止提示音的播放。
預(yù)緩沖（Pre-Speech Buffer） - 進(jìn)入的語音數(shù)據(jù)被存在一個(gè)250毫秒的緩沖區(qū)里。當(dāng)檢測到語音能量，這一部分儲(chǔ)存在緩沖區(qū)里的語音就會(huì)被轉(zhuǎn)發(fā)到語音識(shí)別資源來被處理。這種預(yù)緩沖的里包含的關(guān)鍵信息在高識(shí)別準(zhǔn)確率要求的時(shí)候是十分關(guān)鍵的。
統(tǒng)一的編程接口 (API) - 為了保證系統(tǒng)的可擴(kuò)展性，不同密度的底層硬件之上，應(yīng)用程序的編程接口必須要一樣。

■ CSP優(yōu)點(diǎn)

　　如果我們?cè)谟蠧SP和沒有的兩種情況下對(duì)呼叫流程進(jìn)行一下比較，可以看到CSP的優(yōu)勢(shì)是很明顯的。在沒有CSP的系統(tǒng)里，主機(jī)不斷的針對(duì)所有激活狀態(tài)的通道，從DSP取數(shù)據(jù)。這就消耗主機(jī)CPU很多資源，進(jìn)而影響系統(tǒng)性能。當(dāng)DSP不斷把語音包送到CPU，這種工作很可能占據(jù)90％到100％的CPU處理能力。而且，DSP還沒有辦法過濾掉無用的數(shù)據(jù)（例如沒有說話的時(shí)間），這進(jìn)一步使系統(tǒng)性能下降。因此必須要安裝高性能處理平臺(tái)來彌補(bǔ)CPU的工作量。

　　當(dāng)一個(gè)主叫方和一個(gè)有CSP的語音平臺(tái)進(jìn)行交互時(shí)，整個(gè)過程中都是在播放提示語音。主叫方可以在提示音播放過程中任何時(shí)刻說話，插入語音命令。這加快了語音菜單導(dǎo)航。后臺(tái)處理系統(tǒng)同樣高效。系統(tǒng)平臺(tái)只需要在有語音輸入的時(shí)候才交給主機(jī)進(jìn)行語音處理，這通常只占應(yīng)用程序10％到15％的處理時(shí)間。CSP利用DSP的VAD功能只把有語音的部分?jǐn)?shù)據(jù)交給主機(jī)來處理，節(jié)省了主機(jī)處理的資源。上面功能是利用板卡上DSP的檢測模塊來完成的。

　　預(yù)處理緩沖區(qū)的說明

　　語音打斷功能是由板卡上的預(yù)處理緩沖區(qū)和語音能量檢測兩個(gè)模塊來實(shí)現(xiàn)的，把主機(jī)的CPU從連續(xù)數(shù)據(jù)處理的負(fù)擔(dān)中解脫出來。主機(jī)只有當(dāng)板卡產(chǎn)生一個(gè)事件例如檢測到語音以后才需要開始工作。還有其它的好處。使主機(jī)CPU不再處理無用的數(shù)據(jù)可以減少系統(tǒng)負(fù)荷，這也是系統(tǒng)可以擴(kuò)大到幾百個(gè)端口。還有，預(yù)處理緩沖區(qū)為應(yīng)用程序開發(fā)者提供了更高的可靠性和準(zhǔn)確度。

　　擁有語音打斷的語音系統(tǒng)會(huì)把去除回聲后的數(shù)據(jù)打成很小的包（小于100毫秒）從語音板卡發(fā)到主機(jī)上的語音識(shí)別引擎。這樣做可以使主叫方語音的檢測和確認(rèn)花更少的時(shí)間，達(dá)到更高識(shí)別的準(zhǔn)確度�？蛻粢矔�(huì)感覺系統(tǒng)很友好，因?yàn)樗麄円徽f話系統(tǒng)就停止播放提示語音了。

　　選擇很明確：在板卡上做預(yù)處理緩沖區(qū)而不是把所有語音檢測都放到主機(jī)上，在今天要求可擴(kuò)展性和高密度的系統(tǒng)中是必需的。

■ Recognizing the Benefits

　　Internet的成功和電子商務(wù)的增長為語音技術(shù)創(chuàng)建了新的機(jī)會(huì)，也提出了新的需求，這些新的需求只能用類似CSP這樣的語音處理結(jié)構(gòu)來實(shí)現(xiàn)。除了結(jié)構(gòu)，CSP也提供了關(guān)鍵的優(yōu)點(diǎn)，應(yīng)用程序開發(fā)商可以開發(fā)新的功能投入市場。

　　準(zhǔn)確度

　　CSP提供很多功能類似語音打斷，預(yù)處理緩沖區(qū)，回聲消除增加了客戶的滿意度，他們不會(huì)有過去的體驗(yàn)過的關(guān)于語音技術(shù)的不好的感受。背景音，靜電和不好的線路質(zhì)量利用環(huán)境噪音閥值被減輕或者消除了。這究使這個(gè)平臺(tái)可以被應(yīng)用到任何電話環(huán)境，給開發(fā)者提供進(jìn)入不同市場的堅(jiān)實(shí)的基礎(chǔ)。

　　密度／可擴(kuò)展性

　　CSP提供4到120路不同的密度。因?yàn)楹芏嗾Z音識(shí)別需要的關(guān)鍵模塊在板上被支持了，減少主機(jī)CPU處理連續(xù)語音數(shù)據(jù)的負(fù)荷。當(dāng)在一臺(tái)機(jī)箱里面插多塊高密度板卡，這個(gè)系統(tǒng)可以輕松擴(kuò)展到幾百線。

　　節(jié)　約

　　CSP節(jié)省了實(shí)施費(fèi)用和運(yùn)營費(fèi)用。因?yàn)檎Z音門戶和網(wǎng)上消息應(yīng)用都是在共享的主機(jī)上，空間的考慮是很重要的。高密度的系統(tǒng)可以運(yùn)行在一臺(tái)機(jī)箱里就可以減少系統(tǒng)所需的空間。

　　而且，板卡級(jí)模塊使昂貴的主機(jī)平臺(tái)不是必須。使用比較便宜的處理器就可以達(dá)到可接受的性能。從運(yùn)營費(fèi)用來考慮，使用了類似語音打斷，回聲消除和預(yù)處理緩沖區(qū)，減少了呼叫的時(shí)間，單位時(shí)間內(nèi)能接入的電話就增加了。

　　應(yīng)用提供商也需要考慮到節(jié)約。訪問帶有語音功能的應(yīng)用大多是免費(fèi)電話。如果每個(gè)呼叫的時(shí)間可以縮短，電話費(fèi)也會(huì)相應(yīng)減少。

　　最重要的優(yōu)點(diǎn)就是改進(jìn)了客戶的服務(wù)。獲得新客戶是昂貴的。利用CSP提供能輕松導(dǎo)航和高準(zhǔn)確度，你可以更好的留住你現(xiàn)有的客戶，同時(shí)把你的時(shí)間和精力放在尋找新的有利潤的服務(wù)上來吸引新的客戶。

　　性能提高

　　CSP提供了別的電話平臺(tái)沒有的高性能。語音打斷是任何一個(gè)語音導(dǎo)航系統(tǒng)中的關(guān)鍵成分。讓用戶可以有一個(gè)與計(jì)算機(jī)的對(duì)話是用戶有更舒適的體驗(yàn)。如果沒有語音打斷，用戶會(huì)覺得他們被系統(tǒng)所控制而感覺不舒服。語音打斷的準(zhǔn)確度也是很關(guān)鍵的。一些系統(tǒng)會(huì)被背景噪音或者其它非語音時(shí)間所打斷。使用者就會(huì)繼續(xù)等待系統(tǒng)的提示選項(xiàng)盡管這時(shí)候系統(tǒng)已經(jīng)被不真實(shí)的語音所打斷。高級(jí)的系統(tǒng)都會(huì)使用負(fù)載的語音檢測模塊避免不小心的輸入打斷語音提示。如果這種高級(jí)的系統(tǒng)沒有硬件的幫忙，大量的主機(jī)處理能力都這些前端處理所耗費(fèi)了，最終將影響到系統(tǒng)的密度和性能。

　　CSP使使用者感覺更好。板卡上的語音檢測模塊和預(yù)處理緩沖區(qū)使板卡級(jí)的模塊可以過濾提交給主機(jī)CPU的數(shù)據(jù)流。只有語音說話被檢測和獲得。因此，CPU的負(fù)荷很小，語音事件更加準(zhǔn)確發(fā)給識(shí)別軟件。最終的結(jié)果就是更高的識(shí)別率和滿意的客戶。

■ Will Your Voice Be Heard?

　　如果你希望提供先進(jìn)的語音處理應(yīng)用，你應(yīng)該使用連續(xù)語音處理平臺(tái)。CSP提供業(yè)界對(duì)下一代語音應(yīng)用如語音門戶和網(wǎng)上消息提供了最好的支持。

**Frost and Sullivan, "Speech Recognition," April, 2000, p. 31.
00-6556-002
02-23-01

融合通信專欄>>技術(shù)開發(fā)>>

捷通華聲“颶風(fēng)行動(dòng)”降低語音應(yīng)用門檻 2003-08-04

基于MSTTS的網(wǎng)絡(luò)通信應(yīng)用開發(fā) 2003-08-04

語音應(yīng)用客戶滿意度調(diào)研 2003-07-29

Nuance Voice Platform - NVP 2.0語音平臺(tái) 2003-07-22

分類信息: 語音合成TTS_與_語音識(shí)別ASR 文摘技術(shù)_語音合成_文摘技術(shù)_語音識(shí)別_文摘