編者按:基于語(yǔ)音識別和合成技術(shù)的語(yǔ)音門(mén)戶(hù)近來(lái)被炒得沸沸揚揚。語(yǔ)音門(mén)戶(hù)不僅僅是新的技術(shù),而已經(jīng)是成熟的產(chǎn)品,只不過(guò)還沒(méi)有被真正引入國內。目前,能夠用于語(yǔ)音門(mén)戶(hù)的語(yǔ)音識別核心技術(shù)基本上掌握在以下幾家公司手里:PHILIPS、Nuance、IBM、SpeechWorks和InfoTalk。盡管這些公司都有實(shí)際應用的案例,但其技術(shù)不一定都能應用于語(yǔ)音門(mén)戶(hù)。
語(yǔ)音門(mén)戶(hù)在中國的推廣,核心問(wèn)題不是在技術(shù)上,而是在應用開(kāi)發(fā)和服務(wù)上。限于設計、建設和運營(yíng)中文語(yǔ)音門(mén)戶(hù)經(jīng)驗的欠缺,許多應用開(kāi)發(fā)商(ASP)和核心技術(shù)開(kāi)發(fā)商還只是在向用戶(hù)推薦技術(shù)和概念。但如果這些方案并不具備商業(yè)操作價(jià)值,不能在語(yǔ)音門(mén)戶(hù)的運營(yíng)上創(chuàng )造價(jià)值,也就沒(méi)有任何應用價(jià)值。
本專(zhuān)題將以系列報道的形式連續、全面地介紹語(yǔ)音門(mén)戶(hù),澄清一些誤解,并探討如何在中國建設語(yǔ)音門(mén)戶(hù)。
語(yǔ)音門(mén)戶(hù)介紹
語(yǔ)音門(mén)戶(hù)(Voice Portal)是溝通電信用戶(hù)、電信網(wǎng)絡(luò )及其他信息系統的橋梁,它是一種產(chǎn)品,而不是一種技術(shù)。語(yǔ)音門(mén)戶(hù)的主要特點(diǎn)包括:
- 為固定和移動(dòng)通信用戶(hù)和運營(yíng)商提供服務(wù);
- 一個(gè)號碼接入: 用戶(hù)撥入一個(gè)特服號碼,享受全部服務(wù);
- 以自動(dòng)語(yǔ)音識別(ASR)提供導航和服務(wù);
- 提供個(gè)性化和人性化綜合服務(wù)和統一消息服務(wù)。
具體地說(shuō),語(yǔ)音門(mén)戶(hù)應該是建立在電信運營(yíng)商的電信網(wǎng)絡(luò )上,為客戶(hù)提供個(gè)性化和人性化的客戶(hù)服務(wù)、信息服務(wù)、轉接服務(wù)和個(gè)人定制服務(wù)的平臺。在這個(gè)平臺上,用戶(hù)通過(guò)語(yǔ)音界面,可以更快捷、更方便地獲得比傳統IVR系統更豐富的信息和更完善的服務(wù)。
成功案例
從20世紀90年代末以來(lái),隨著(zhù)語(yǔ)音技術(shù)的成熟和逐步實(shí)用化,由于計算機硬件性能的飛速提高,語(yǔ)音門(mén)戶(hù)開(kāi)始在世界發(fā)達國家出現。特別是在歐洲和美洲,較高的用戶(hù)消費水平能夠消化吸收較昂貴的新技術(shù),語(yǔ)音技術(shù)開(kāi)始進(jìn)入客戶(hù)服務(wù)和信息服務(wù)領(lǐng)域,并逐漸與互聯(lián)網(wǎng)融合在一起,為客戶(hù)提供個(gè)性化和人性化的服務(wù)。目前,國際上比較成功的案例有:
- Vodafone:綜合信息系統,提供個(gè)性化統一消息服務(wù)。
- Mannesmann Arcor:在德國推出了Talking Web。這項創(chuàng )新技術(shù)使語(yǔ)音入口的內容不再必須從指定數據庫中檢索,而可以直接從Web服務(wù)器上訪(fǎng)問(wèn)。
- Omnitel:1999年5月開(kāi)通,電信增值服務(wù)平臺。提供財經(jīng)、生活、娛樂(lè )等各種信息服務(wù)和轉接服務(wù)。
- 臺灣和信電訊Ms.600:2000年8月開(kāi)通,移動(dòng)通信增值服務(wù)平臺。提供信息服務(wù)、轉接服務(wù)、統一消息服務(wù)。(詳細資料請參考http://www.kgt .com.tw/sitemap/qminfo_08.html)
澄清一些概念
(1)VoiceXML不是語(yǔ)音門(mén)戶(hù)標準
經(jīng)常有人把VoiceXML說(shuō)成語(yǔ)音門(mén)戶(hù)的標準。實(shí)際上,在VoiceXML出現之前,語(yǔ)音門(mén)戶(hù)就存在了。VoiceXML不是語(yǔ)音門(mén)戶(hù)的標準,只是用于解決互聯(lián)網(wǎng)與語(yǔ)音界面的接口問(wèn)題。VoiceXML目前還存在一些問(wèn)題,主要表現在:
- VoiceXML的標準還在制訂和完善過(guò)程中;
- 目前還沒(méi)有解決雙向的問(wèn)題,只有提問(wèn),沒(méi)有回答,只能下載Web page;
- 目前世界上大部分網(wǎng)站用的都是HTML或WML標識語(yǔ)言,如果要求所有的網(wǎng)站都支持VXML的標識語(yǔ)言,還有相當的距離。
目前,計算機硬件、操作系統、電信、網(wǎng)絡(luò )和語(yǔ)音識別的主導廠(chǎng)商正在起草一個(gè)新的語(yǔ)音處理標準—語(yǔ)音應用語(yǔ)言標識(SALT,Speech Application Language Tags),它能夠兼容HTML、xHTML和XML。參與制訂這一新標準的廠(chǎng)商有:Cisco、Intel、Microsoft、Phillips和SpeechWorks等。詳細信息請參考其網(wǎng)站:www.saltforum.org。因此,VoiceXML的前途如何,還有很大的疑問(wèn)。
(2)不同領(lǐng)域的語(yǔ)音識別技術(shù)
并非所有的語(yǔ)音識別技術(shù)都能應用于語(yǔ)音門(mén)戶(hù)。語(yǔ)音識別技術(shù)可以分為3種:
- 個(gè)人終端設備上的技術(shù)——以固化語(yǔ)音模塊形式嵌入PDA、手機、玩具、家用電器等產(chǎn)品。其特點(diǎn)是:簡(jiǎn)單功能,小詞匯量、針對特定用戶(hù)(需要用戶(hù)事先訓練機器才能聽(tīng)懂)。目前也有一些更小詞匯量的,針對非特定用戶(hù)的產(chǎn)品。
- 基于PC的技術(shù)——語(yǔ)音指令控制PC動(dòng)作、聽(tīng)寫(xiě)錄入。支持大詞匯量、針對特定用戶(hù),使用前必須訓練,要求安靜的使用環(huán)境。
- 基于電信網(wǎng)絡(luò )的技術(shù)——應用于電信網(wǎng)絡(luò )中,提供大詞匯量識別、與用戶(hù)無(wú)關(guān)。這個(gè)領(lǐng)域中的語(yǔ)音識別系統,由于受到語(yǔ)音傳輸頻寬、環(huán)境噪聲、系統回聲、電磁干擾、不允許實(shí)現訓練等更加苛刻的約束,對技術(shù)的要求就更高。
之所以要區分這三種技術(shù),是因為這三種技術(shù)應用于不同的領(lǐng)域,其技術(shù)結構有非常大的差別。一個(gè)領(lǐng)域的產(chǎn)品,轉化為另一領(lǐng)域的產(chǎn)品是十分困難的。用戶(hù)在選擇語(yǔ)音識別技術(shù)的時(shí)候,要看其專(zhuān)長(cháng)在哪個(gè)領(lǐng)域。
(3)語(yǔ)音門(mén)戶(hù)不是語(yǔ)音網(wǎng)站
一提到語(yǔ)音門(mén)戶(hù),總有人把他說(shuō)成語(yǔ)音門(mén)戶(hù)網(wǎng)站。實(shí)際上,語(yǔ)音網(wǎng)站僅僅是語(yǔ)音門(mén)戶(hù)的一個(gè)很小的部分。如前所述,語(yǔ)音門(mén)戶(hù)集成了電信網(wǎng)絡(luò )、計算機網(wǎng)絡(luò )和互聯(lián)網(wǎng),提供統一消息服務(wù),遠比語(yǔ)音網(wǎng)站豐富和強大。