IBM ViaVoice Telephony——完善的中文電話(huà)語(yǔ)音技術(shù)
2001/11/14
語(yǔ)音技術(shù),雖然在國外出現得很早,但在國內開(kāi)始步入實(shí)用領(lǐng)域,還是最近的事情。尤其是語(yǔ)音技術(shù)在智能電話(huà)系統中的應用,國外已經(jīng)有了不少較大規模的語(yǔ)音識別IVR系統或者呼叫中心的應用,然而在國內,雖然有將語(yǔ)音識別和呼叫中心結合起來(lái)的趨勢,但仍沒(méi)有多少應用。目前電話(huà)高度普及,如果通過(guò)最便捷的電話(huà)方式就能查詢(xún)到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。雖然影響語(yǔ)音技術(shù)在電話(huà)系統中應用的因素很多,但重要的一點(diǎn)就是漢語(yǔ)語(yǔ)音識別技術(shù)還不夠完善。
基于電話(huà)的語(yǔ)音識別技術(shù)與基于電腦的有很多不同之處。電腦錄入使用的是非自然語(yǔ)言,而電話(huà)是自然語(yǔ)言。要做好對電話(huà)語(yǔ)音的識別,就需要系統能夠對男女老少,甚至是帶有一些地方口音的各種語(yǔ)言進(jìn)行識別。并且,電話(huà)語(yǔ)音識別系統必須具有處理插入的能力。即允許用戶(hù)在系統提示時(shí)中斷系統,但系統依然能知道用戶(hù)的請求。因為人們在說(shuō)話(huà)時(shí),總是在不自覺(jué)地思考,經(jīng)常會(huì )打斷語(yǔ)言的連續性,而插入一些補充性的語(yǔ)言。這樣的語(yǔ)言,在語(yǔ)法上來(lái)說(shuō)經(jīng)常是不正確的,常規的語(yǔ)音識別系統很難處理這些語(yǔ)音。
經(jīng)過(guò)多年的研究,IBM公司已經(jīng)突破了漢語(yǔ)語(yǔ)音識別技術(shù)上的重重難關(guān),為智能電話(huà)系統提供了IBM ViaVoice Telephony電話(huà)語(yǔ)音系統開(kāi)發(fā)工具。作為IBM公司中文語(yǔ)音識別技術(shù)的最新成果,IBM ViaVoice Telephony電話(huà)語(yǔ)音系統開(kāi)發(fā)工具提供了一個(gè)開(kāi)放式的電話(huà)語(yǔ)音識別引擎和完善的應用開(kāi)發(fā)環(huán)境,使語(yǔ)音功能可以方便快捷地被集成到電話(huà)系統中,為網(wǎng)上聲訊服務(wù)、電子商務(wù),以及涉及電話(huà)通信的應用系統提供語(yǔ)音交互界面。
IBM ViaVoice Telephony中文電話(huà)語(yǔ)音技術(shù)是IBM ViaVoice中文語(yǔ)音識別技術(shù)在電話(huà)通信領(lǐng)域中的延伸和發(fā)展。它的語(yǔ)音識別引擎采用實(shí)際電話(huà)信道的語(yǔ)音樣本,對于普通電話(huà)和移動(dòng)電話(huà)均能獲得很高的識別率。由于語(yǔ)音識別引擎沒(méi)有特定授話(huà)人的限制,任何能講標準漢語(yǔ)普通話(huà)的人都可以使用。并且電話(huà)語(yǔ)音的應用不但可以運行在單機系統上,更可以擴展為多引擎、多服務(wù)器的大型企業(yè)級應用,動(dòng)態(tài)的負載平衡能力可以令系統時(shí)刻保持最優(yōu)的效能。
同時(shí),IBM ViaVoice Telephony 電話(huà)語(yǔ)音系統開(kāi)發(fā)工具庫還為程序員開(kāi)發(fā)和測試電話(huà)語(yǔ)音識別應用程序提供了一套完善的實(shí)用程序。該工具庫對TCL/TK腳本語(yǔ)言進(jìn)行了擴展,簡(jiǎn)化了應用程序的開(kāi)發(fā)和定制過(guò)程,并提供了與硬件無(wú)關(guān)的語(yǔ)音識別和語(yǔ)音合成引擎C/C++接口,使得開(kāi)發(fā)人員可以開(kāi)發(fā)面向對象的解決方案。工具庫中還包括了若干示例程序,可以幫助用戶(hù)理解如何將語(yǔ)音識別集成到電話(huà)語(yǔ)音應用程序中。另外,軟件中還附帶了幾個(gè)實(shí)用程序,來(lái)協(xié)助開(kāi)發(fā)人員開(kāi)發(fā)、測試和管理電話(huà)語(yǔ)音識別應用程序。
通過(guò)IBM ViaVoice Telephony電話(huà)語(yǔ)音識別技術(shù),在許多領(lǐng)域已可以很方便的實(shí)現人機語(yǔ)音自動(dòng)交互服務(wù),例如:信息查詢(xún),尋呼臺、電話(huà)轉接中心;金融領(lǐng)域,如家庭銀行或股票信息查詢(xún);旅游服務(wù)領(lǐng)域,如飛機定票或旅館預定,等。另外隨著(zhù)互聯(lián)網(wǎng)的迅猛發(fā)展,電話(huà)輕松上網(wǎng)獲取信息,更是廣大用戶(hù)的迫切希望。通過(guò)電話(huà)上網(wǎng),用戶(hù)只需說(shuō)出想得到的網(wǎng)上信息,機器自動(dòng)識別,將用戶(hù)的請求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語(yǔ)音合成技術(shù)回放給用戶(hù),提供人性化的語(yǔ)音應答交互界面。
目前,基于IBM電話(huà)語(yǔ)音技術(shù),tom.com開(kāi)發(fā)了第一個(gè)商用中文語(yǔ)音門(mén)戶(hù)——Tom及時(shí)語(yǔ)(http://cn.tom.com/tomvoice)。通過(guò)電話(huà)語(yǔ)音識別技術(shù),可以使用戶(hù)用電話(huà)訪(fǎng)問(wèn)原來(lái)只能通過(guò)因特網(wǎng)或內部網(wǎng)的應用;在任何時(shí)間,任何地點(diǎn)快速便捷獲取所需信息和進(jìn)行在線(xiàn)交易。
隨著(zhù)中文電話(huà)語(yǔ)音應用的推廣和深入,針對實(shí)際應用的需求,一系列新技術(shù)被開(kāi)發(fā)出來(lái)。例如,關(guān)鍵詞辯識技術(shù)可使用戶(hù)更加自然地和遠端服務(wù)器交互;針對字母及數字串專(zhuān)用聲學(xué)模型的建立,為在線(xiàn)語(yǔ)音驅動(dòng)的電子商務(wù)、個(gè)性化信息服務(wù)提供了有力的保證;針對許多應用中有中英文混合使用的情況,開(kāi)發(fā)了同時(shí)支持普通話(huà)、臺灣普通話(huà)、粵語(yǔ)和英語(yǔ)的混合語(yǔ)音技術(shù),進(jìn)一步拓展了應用的廣度。
相信,隨著(zhù)IBM ViaVoice Telephony技術(shù)在通訊、金融、旅游以及醫療等領(lǐng)域的進(jìn)一步推廣和應用,將會(huì )給人們的工作和生活帶來(lái)質(zhì)的變化。有專(zhuān)家預測,隨著(zhù)技術(shù)的快速發(fā)展,再過(guò)10~20年的時(shí)間,我們將可以做到非常自然的人機交互式對話(huà)。那時(shí),人們的生活必將更加多姿多彩。
IBM供稿 CTI論壇編輯
ViaVoice語(yǔ)音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
語(yǔ)音識別重在應用 2001-11-14 |
CRM中的IBM語(yǔ)音技術(shù) 2001-10-10 |
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10 |