中文VoiceXML語(yǔ)音瀏覽器白皮書(shū)
2001/11/12
一 前言
以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國帶來(lái)了巨大的機會(huì )和挑戰,中國已開(kāi)始進(jìn)入一個(gè)以信息為核心的時(shí)代。如何快速準確地獲取所關(guān)心的信息,對人們的日常工作和生活已起到越來(lái)越重要的影響。
計算機作為互聯(lián)網(wǎng)絡(luò )的一種重要的信息終端,是目前人們從互聯(lián)網(wǎng)上獲取信息的主要工具。然而,由于傳統的上網(wǎng)方式限制了互聯(lián)網(wǎng)的上網(wǎng)人數,互聯(lián)網(wǎng)的訪(fǎng)問(wèn)模式逐漸從單一的訪(fǎng)問(wèn)方式向多種用戶(hù)終端發(fā)展 ,如:電話(huà)、移動(dòng)電話(huà)、PDA等。在當今科技飛速發(fā)展的地區,語(yǔ)音上網(wǎng)成為繼無(wú)線(xiàn)WAP上網(wǎng)之后的又一個(gè)發(fā)展熱點(diǎn)。人們喜歡用人類(lèi)自然的語(yǔ)音,通過(guò)友好的語(yǔ)音交互方式直接來(lái)獲取信息和服務(wù)。1999年 ,Evans Group Research對250個(gè)使用不同語(yǔ)音系統的用戶(hù)進(jìn)行調查,調查的結果反饋和分析表明:對語(yǔ)音系統和按鍵式系統的使用受歡迎程度,83%的用戶(hù)更喜歡使用語(yǔ)音系統而不是使用按鍵式系統;而對于使用語(yǔ)音驅動(dòng)系統和與坐席進(jìn)行通話(huà),74%的用戶(hù)更傾向于前者。近年來(lái)語(yǔ)音技術(shù)的快速發(fā)展和不斷成熟,以及中文語(yǔ)音應用技術(shù)的突破,為信息網(wǎng)絡(luò )帶來(lái)了一種極具誘惑的信息終端----電話(huà)。
電話(huà)在中國是最為普及的通信工具,相對現今不到2000 萬(wàn)的互聯(lián)網(wǎng)電腦終端用戶(hù)來(lái)說(shuō),高達2 億的電話(huà)用戶(hù)具有更為重要的意義。據預測到2001 年,全球將有10 億多部電話(huà)投入使用,而移動(dòng)電話(huà)用戶(hù)將達到5 億人。在中國,移動(dòng)電話(huà)和固定電話(huà)的用戶(hù)將達到分別為6500萬(wàn)和1.4億。而語(yǔ)音應用技術(shù),為中國百姓建立了一條輕松通達信息時(shí)代的高速公路,將信息科技以最為親切的方式帶到了人們身邊。
語(yǔ)音,作為人類(lèi)最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻擋的強勁勢頭融入到互聯(lián)網(wǎng)中。在國外市場(chǎng),以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起 ,倡導人性化的語(yǔ)音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著(zhù)名互聯(lián)網(wǎng)公司紛紛進(jìn)入相應的服務(wù)領(lǐng)域,建立大規模的語(yǔ)音門(mén)戶(hù)網(wǎng)站,而AOL則提供所謂AOL-By-Phone服務(wù)。
從技術(shù)角度看,語(yǔ)音識別(ASR)技術(shù)、文語(yǔ)轉換(TTS)技術(shù)已經(jīng)從實(shí)驗室逐步走向成熟,其算法的復雜性也逐年下降,從而使這些技術(shù)逐步在市場(chǎng)中得以應用;另一方面,計算機的運算能力每?jì)赡昃头环矠檫@些技術(shù)的商業(yè)應用奠定了堅實(shí)的基礎;再加上移動(dòng)用戶(hù)終端的種類(lèi)與功能也在以前所未有的速度增長(cháng);所有這些技術(shù)的發(fā)展都為基于語(yǔ)音的互聯(lián)網(wǎng)門(mén)戶(hù)的發(fā)展提供的可靠的保證。
而這一切實(shí)現的關(guān)鍵是成熟的語(yǔ)音技術(shù)、龐大的互聯(lián)網(wǎng)絡(luò )、交互的通訊網(wǎng)絡(luò )、以及把它們結合在一起的關(guān)鍵技術(shù):語(yǔ)音瀏覽技術(shù)。
二 語(yǔ)音技術(shù)
語(yǔ)音,是人們最為熟悉也最為簡(jiǎn)單的一種交流方式。語(yǔ)音是人們詢(xún)問(wèn)問(wèn)題、交換觀(guān)念、分享經(jīng)驗、建立關(guān)系的最主要方式,人類(lèi)通過(guò)語(yǔ)言來(lái)傳達著(zhù)大量的信息。
1、語(yǔ)音識別與語(yǔ)音合成
語(yǔ)音技術(shù)在計算機領(lǐng)域中的關(guān)鍵技術(shù):語(yǔ)音識別技術(shù)(ASR :Automatic Speech Recognition )和語(yǔ)音合成技術(shù)(TTS :Text to Speech )。語(yǔ)音識別技術(shù),是指將人說(shuō)話(huà)的語(yǔ)音信號轉換為可被計算機程序所識別的文字信息,從而識別說(shuō)話(huà)人的語(yǔ)音指令以及文字內容的技術(shù)。而語(yǔ)音合成技術(shù),是指將文字信息轉變?yōu)檎Z(yǔ)音數據,以語(yǔ)音的方式播放出來(lái)的技術(shù)。
電話(huà)的出現已經(jīng)有120多年的歷史,而使用在商業(yè)應用上相關(guān)的語(yǔ)音識別和語(yǔ)音合成最近幾十年才開(kāi)始進(jìn)行研究。事實(shí)上,一直到90年代中期基于電話(huà)并且提供大量的詞匯、使用者不需要經(jīng)過(guò)任何的培訓的語(yǔ)音識別軟件才出現。目前語(yǔ)音識別和語(yǔ)音合成技術(shù)目前已成為一項實(shí)用性的技術(shù)。語(yǔ)音識別系統能支持自然的習慣用語(yǔ),例如“I wanna buy 33 shares of 3com at the market"。另外優(yōu)秀的語(yǔ)音識別技術(shù),在無(wú)須訓練的情況下,能夠以高達95%的識別率識別人的語(yǔ)音命令,并實(shí)現了多種語(yǔ)言、多種口音與說(shuō)話(huà)人無(wú)關(guān)的連續語(yǔ)音識別。而語(yǔ)音聽(tīng)寫(xiě)也已成為一種新的文字輸入技術(shù)被人們使用。在語(yǔ)音合成技術(shù)上,已經(jīng)能夠實(shí)現自然、流暢、智能型的文字合成。
2、語(yǔ)音應用技術(shù)的核心:語(yǔ)音瀏覽技術(shù)
語(yǔ)音應用技術(shù)(Voice Application Technology ),是指人們可以使用電話(huà)或移動(dòng)電話(huà),以及PC 、PDA 和其它智能設備通過(guò)語(yǔ)音識別、語(yǔ)音合成的交互技術(shù),以及語(yǔ)音瀏覽、智能信息處理技術(shù)等實(shí)現人們訪(fǎng)問(wèn)互聯(lián)網(wǎng)絡(luò )、實(shí)現個(gè)人服務(wù)和商業(yè)服務(wù)的應用技術(shù)。
語(yǔ)音應用技術(shù),是語(yǔ)音技術(shù)(ASR 和TTS )、語(yǔ)音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,其形成一個(gè)完整的技術(shù)應用規范體系,建立于已有的相關(guān)技術(shù)協(xié)議標準上,著(zhù)重于應用開(kāi)發(fā)。
語(yǔ)音應用技術(shù)是跨接在以語(yǔ)音為核心的電話(huà)網(wǎng)絡(luò )和以數據為核心的互聯(lián)網(wǎng)絡(luò )兩者之間的一座橋梁,電話(huà)和移動(dòng)電話(huà)成為了互聯(lián)網(wǎng)絡(luò )的信息終端,為人們以自然語(yǔ)言交互的方式來(lái)遨游信息世界打開(kāi)了一扇自由的大門(mén)。
語(yǔ)音應用技術(shù),使人們可以自由的以對話(huà)(Dialog)方式與機器和遠端語(yǔ)音服務(wù)器交談,以語(yǔ)音的方式命令機器為自己服務(wù)。這是人類(lèi)長(cháng)久以來(lái)的夢(mèng)想,而這個(gè)夢(mèng)想正是通過(guò)語(yǔ)音瀏覽技術(shù)而得以實(shí)現。
語(yǔ)音瀏覽技術(shù),類(lèi)似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),它以一種XML 標記語(yǔ)言為數據載體,通過(guò)各種網(wǎng)絡(luò )數據傳輸協(xié)議,而以Client/Server 的方式為語(yǔ)音瀏覽器所解析,通過(guò)語(yǔ)音的方式呈現給用戶(hù)。這類(lèi)似于Web 與 IE 瀏覽器的概念,只不過(guò)IE 以圖象的方式在顯示器上將信息呈現出來(lái),而語(yǔ)音瀏覽器以語(yǔ)音的方式在電話(huà)、手機或其它語(yǔ)音手持設備的通道中呈現。IE 接受用戶(hù)的鼠標和鍵盤(pán)指令,而語(yǔ)音瀏覽器接受用戶(hù)的說(shuō)話(huà)為指令。
3、語(yǔ)音應用技術(shù)的優(yōu)勢
為何語(yǔ)音應用技術(shù)對于互聯(lián)網(wǎng)絡(luò ),對于信息技術(shù)如此重要?首先,人類(lèi)的自然語(yǔ)音通過(guò)電話(huà)能夠被識別和理解,那么電話(huà)將無(wú)疑是最適合的一種工具用來(lái)提供大多數用戶(hù)在互聯(lián)網(wǎng)上所需求的信息和服務(wù)。尤其是在中國,電話(huà)相對計算機而言電話(huà)更是人們日常生活中最普及的設備。
在最近5年以來(lái),互聯(lián)網(wǎng)作為信息傳輸的一種新興的媒體而使整個(gè)世界發(fā)生了根本性的改變,現在全球大約有2億個(gè)用戶(hù)使用互聯(lián)網(wǎng)作為他們在日常生活中必不可少的一部份,用戶(hù)通過(guò)互聯(lián)網(wǎng)能得到他們所想要的便利、娛樂(lè )以及提高他們的工作效率。
互聯(lián)網(wǎng)無(wú)疑又是誘人的。因為互聯(lián)網(wǎng)提供了大量的各種各樣的實(shí)用信息,但是要獲得這些信息并不是隨處可得,用戶(hù)必須在家里或辦公室通過(guò)電腦聯(lián)網(wǎng)來(lái)獲得這些信息。這對于在一個(gè)信息快速更新的社會(huì )并不是一件令人高興的事情。所以消費者對于互聯(lián)網(wǎng)內容和信息的大量需求促使各種生產(chǎn)廠(chǎng)商設計出各種各樣的產(chǎn)品,如PDA、手機等這些可隨身攜帶又能直接與網(wǎng)絡(luò )互聯(lián)的產(chǎn)品。PALM的手持設備和WAP蜂窩電話(huà)等目前是最流行也是最符合要求的典型例子。
這些設備的快速發(fā)展促使通過(guò)手持設備和手機來(lái)訪(fǎng)問(wèn)互聯(lián)網(wǎng)的內容是可實(shí)現的。另外,隨著(zhù)移動(dòng)電話(huà)越來(lái)越小,越來(lái)越輕,越來(lái)越便宜,以及移動(dòng)電話(huà)電池使用時(shí)間越來(lái)越長(cháng),其所具備的便攜性遠勝于電腦。而伴隨移動(dòng)通信技術(shù)的飛速發(fā)展,他們更具備了電腦不具備的優(yōu)勢,比如全球定位。你甚至可以在開(kāi)車(chē)時(shí)方便的使用移動(dòng)電話(huà),甚至在不久的將來(lái)使用車(chē)載電話(huà),通過(guò)車(chē)載電話(huà)來(lái)尋找相關(guān)的信息。
電信的增值服務(wù)改變了用戶(hù)無(wú)論在何地、何時(shí)都能直接訪(fǎng)問(wèn)互聯(lián)網(wǎng)的內容是激動(dòng)人心的。但個(gè)性化的服務(wù)可使個(gè)人和商務(wù)快速獲得和容易訪(fǎng)問(wèn)他們所關(guān)心的內容和信息。因而語(yǔ)音技術(shù)的出現改變了電話(huà)的應用范圍,從而使電話(huà)成為從網(wǎng)絡(luò )媒體上得到語(yǔ)音和數據信息的一種最便利的設備之一。
雖然曾經(jīng)在移動(dòng)電話(huà)中出現了WAP 這樣有用的技術(shù),使移動(dòng)電話(huà)可以作為網(wǎng)絡(luò )終端,而基于文本的互聯(lián)網(wǎng)的內容也是非常有用的,但緩慢的傳輸速度和與互聯(lián)網(wǎng)連接的困難以及這些設備的小屏幕都限制了這些設備的使用價(jià)值。
語(yǔ)音具有其無(wú)以倫比的獨特的優(yōu)勢,而且語(yǔ)音比鍵盤(pán)和閱讀更具有親切感。當然,圖象和文字依然很重要,我們相信,我們不久就可以見(jiàn)到“多模式”的設備,可以以圖象和文字的方式進(jìn)行,或以語(yǔ)音的方式進(jìn)行,甚至可以混合語(yǔ)音和圖象信息。而這正是語(yǔ)音應用技術(shù)帶來(lái)的美好前景。
同樣,語(yǔ)音對于Internet 也一樣重要。首先,基于語(yǔ)音瀏覽技術(shù)的語(yǔ)音應用系統的開(kāi)發(fā)很容易,應用語(yǔ)音應用技術(shù)可以輕松建立豐富的、廉價(jià)的和高效的Web 應用,以及其開(kāi)發(fā)工具。其次,語(yǔ)音應用系統很容易發(fā)布,不再需要建立一個(gè)指定的專(zhuān)用的語(yǔ)音服務(wù)器,基于語(yǔ)音瀏覽機制的語(yǔ)音應用可以放在Internet 上的任意一個(gè)地方,而用戶(hù)通過(guò)電話(huà),可以象使用IE 這樣的瀏覽器一樣進(jìn)行查詢(xún)、書(shū)簽以及鏈接等其他Web 的瀏覽方式。
語(yǔ)音自然交互更具有其它信息終端不具備的優(yōu)勢,利用自然語(yǔ)音交互技術(shù),用戶(hù)不再需要一項一項的填寫(xiě)Web 的Form 表單,不再需要痛苦的在小小的手機鍵盤(pán)上換著(zhù)數字輸入名字和E-mail 地址。基于關(guān)鍵字捕捉和自然語(yǔ)言處理技術(shù),用戶(hù)進(jìn)入個(gè)人界面后可以輕松的說(shuō)一句:“股票信息, 深發(fā)展 ”,相應地計算機回應“深發(fā)展”當前的有關(guān)信息,一切輕松自然而又隨意。
三 網(wǎng)絡(luò )與數據
1、語(yǔ)音瀏覽:建立于網(wǎng)絡(luò )與語(yǔ)音通訊之間的橋梁
Internet 的飛速發(fā)展和廣泛應用,很大程度上是建立于 WEB 瀏覽機制的成功之上。正是因為 Client/Server 的結構和HTML 腳本標記語(yǔ)言和http 等有效傳輸協(xié)議的結合,使Internet 具有了最為強大的分布/集中訪(fǎng)問(wèn)結構,以及簡(jiǎn)單的應用開(kāi)發(fā)機制。可以說(shuō),瀏覽是網(wǎng)絡(luò )的核心。
對于語(yǔ)音應用來(lái)說(shuō),以往的語(yǔ)音應用建立于簡(jiǎn)單的、封閉的交互機制上。其數據來(lái)源基本上完全依靠事先的預制錄音,操作流程為簡(jiǎn)單的菜單式按鍵選擇。
隨著(zhù)語(yǔ)音識別、語(yǔ)音合成等新的人機交互方式的成熟應用,傳統的 CTI系統具備了新的交互能力。而語(yǔ)音瀏覽正是為適應這種新的交互方式和Internet 應用的結合而誕生的。語(yǔ)音瀏覽使傳統的簡(jiǎn)單的電話(huà)機成為了一種功能強大且操作簡(jiǎn)單的數據訪(fǎng)問(wèn)終端,將數據和交互建立于Internet 瀏覽結構之上,從而使電話(huà)機這樣簡(jiǎn)單的設備可以比其它網(wǎng)絡(luò )終端更為容易和方便的暢游Internet 。
語(yǔ)音瀏覽,其類(lèi)同于我們所熟悉的Internet 與客戶(hù)端計算機之間的瀏覽機制。從而將龐大的最為普及的語(yǔ)音通訊網(wǎng)絡(luò )有機的融入了豐富的Internet 中,使建立于數據網(wǎng)絡(luò )之上的廣大應用得到了最廣泛的延伸。
2、基于XML 的數據瀏覽技術(shù)
Internet 的核心是瀏覽,基于HTML腳本描述語(yǔ)言的Web 的瀏覽機制的應用是Internet 廣泛普及的基礎。
而一種新的腳本描述語(yǔ)言:XML 的出現,為數據瀏覽技術(shù)帶來(lái)了一種全新的概念。XML 標記語(yǔ)言,將以往的HTML 之類(lèi)的標記語(yǔ)言所關(guān)注于數據表達形式的概念轉移到對數據含義和內容的關(guān)注上來(lái)。HTML 標記語(yǔ)言中,計算機程序可以知道這些數據應該以什么樣的方式在屏幕上表現出來(lái),但我們卻很難讓計算機程序知道,這些數據是什么含義。而在XML 中,其標記的是數據的含義和內容,我們可以輕松的讓程序來(lái)識別和處理這些數據,并以各種各樣適當的形式表現出來(lái)。
基于XML 的數據瀏覽技術(shù)可以說(shuō)是網(wǎng)絡(luò )時(shí)代的又一次數據革命,正如美國微軟公司首席執行官史蒂夫.鮑爾默所說(shuō):“XML語(yǔ)言將革新人機界面”。
鮑爾默稱(chēng),XML語(yǔ)言是一種"更坦白的網(wǎng)絡(luò )語(yǔ)言",它使得數據在網(wǎng)絡(luò )上的獲取和交流更加靈活便利,并可以通過(guò)包括電腦、電視和移動(dòng)電話(huà)等更多的終端設備得到反映。鮑爾默說(shuō),"5年內我希望能像和秘書(shū)講話(huà)一樣地和電腦交流。"
3、VoiceXML :為語(yǔ)音應用開(kāi)創(chuàng )新的未來(lái)
VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應用于語(yǔ)音瀏覽的標記語(yǔ)言,它建立于XML 標記語(yǔ)言規范的基礎之上,是語(yǔ)音瀏覽技術(shù)的核心。而因為其同樣是一種XML描述語(yǔ)言,其與數據庫、HTML、WML以及其它文檔處理和發(fā)布系統的資料交換幾乎沒(méi)有障礙。
通過(guò)VoiceXML ,可以像建立HTML 的Web 應用一樣輕松的建立語(yǔ)音應用系統,而這樣的語(yǔ)音應用系統可以為基于VoiceXML 的語(yǔ)音瀏覽器所廣泛支持。語(yǔ)音瀏覽器通過(guò)解析VoiceXML ,與語(yǔ)音識別和語(yǔ)音合成等方式進(jìn)行人機交互,從而實(shí)現說(shuō)話(huà)就可以上網(wǎng)的夢(mèng)想。而語(yǔ)音瀏覽器不僅僅可以建立于電話(huà)服務(wù)器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。
通過(guò)VoiceXML ,可以很容易地建立新的語(yǔ)音應用和服務(wù),如語(yǔ)音門(mén)戶(hù)、語(yǔ)音Call Center ,語(yǔ)音信息服務(wù)、語(yǔ)音電子商務(wù)等等。而這些應用或服務(wù)可以很容易地和原有的數據系統結合起來(lái),甚至可以輕易地從原有的各類(lèi)應用中延展出來(lái)。而VoiceXML 的語(yǔ)音應用,可以以XML的數據表達形式,與其它的應用系統、數據系統輕易交流。
正是VoiceXML 將語(yǔ)音交互引入了數據瀏覽的世界,使電話(huà)等以語(yǔ)音為主要形式的設備成為新型的網(wǎng)絡(luò )終端,并以自然、對話(huà)、簡(jiǎn)單的特點(diǎn),使之具備了更為廣泛的普及性和友好性。這種瀏覽機制為語(yǔ)音應用領(lǐng)域展現了一個(gè)更為廣闊的未來(lái)。
四 無(wú)限商機公司 VoiceXML的瀏覽器
無(wú)限商機公司 VoiceXML 瀏覽器
無(wú)限商機公司 VoiceXML語(yǔ)音瀏覽器,為解決眾多需求而設計。其設計層次如下:
在我們的實(shí)現中,我們分別設計了控制層、安全層、事務(wù)層、會(huì )話(huà)層、和應用層。并開(kāi)放了除控制層之外的所有層的開(kāi)放接口。
1、VoiceXML 語(yǔ)音瀏覽器的組成部分
一個(gè)完整的VoiceXML 語(yǔ)音瀏覽器,由以下幾個(gè)部分組成:
(1)。VoiceXML 解析器
VoiceXML 解析器是整個(gè)語(yǔ)音瀏覽器的核心部分。其在語(yǔ)音瀏覽器中擔負控制中心的角色。VoiceXML 解析器通過(guò)網(wǎng)絡(luò )協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語(yǔ)言所描述的應用文檔(document),解析該應用文檔,解釋其中各個(gè)標志(Tag ),產(chǎn)生相應的控制命令,控制其它部件進(jìn)行相應的動(dòng)作,并獲取結果,根據結果決定應用的執行方向和順序流。
(2)。語(yǔ)音識別引擎
語(yǔ)音識別引擎是VoiceXML語(yǔ)音瀏覽器的生命力所在,語(yǔ)音識別使計算機能理解用戶(hù)的語(yǔ)音命令,產(chǎn)生相應的文字結果,送回VoiceXML解析器作處理。
在VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識別引擎為命令式的識別引擎,其根據有限的語(yǔ)法(grammar)來(lái)識別用戶(hù)的語(yǔ)音信號,產(chǎn)生對應語(yǔ)法定義的識別結果。所以,語(yǔ)法便成為了VoiceXML語(yǔ)音瀏覽器中的重要概念。在VoiceXML語(yǔ)音瀏覽器中,語(yǔ)法決定了用戶(hù)能說(shuō)什么,如何說(shuō),好的語(yǔ)法能帶給用戶(hù)良好的交互感覺(jué),也能從邏輯上提高語(yǔ)音識別引擎的識別率,使整個(gè)語(yǔ)音應用的瀏覽流暢而輕松。
VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識別引擎不僅需要處理對用戶(hù)語(yǔ)音信號的識別,同時(shí)也需要處理對用戶(hù)按鍵的識別,按鍵和語(yǔ)音以同樣的機制被處理和傳遞。
(3)。語(yǔ)音合成引擎
語(yǔ)音合成引擎,其處理VoiceXML 解析器將文字轉換為語(yǔ)音信號,并通過(guò)語(yǔ)音通道播放給用戶(hù)的命令。VoiceXML 語(yǔ)音合成引擎可以將文字轉換成語(yǔ)音文件,也可以轉換成語(yǔ)音數據流,或者直接將已事先錄制好的語(yǔ)音文件直接播放或以流的方式播放給語(yǔ)音通道。
語(yǔ)音合成引擎的文字轉化為聲音的品質(zhì),決定了用戶(hù)對系統的直接感覺(jué),流暢自然的合成聲音,將使用戶(hù)感覺(jué)良好。如何提高語(yǔ)音合成引擎的合成品質(zhì),已成為影響語(yǔ)音應用效果的重要因素。
(4)。語(yǔ)音通道
語(yǔ)音通道是在VoiceXML語(yǔ)音瀏覽器中傳輸用戶(hù)的語(yǔ)音數據信號和合成引擎所產(chǎn)生的聲音數據信號的傳遞通道,其連接物理上的語(yǔ)音采集和播放設備,語(yǔ)音識別引擎的語(yǔ)音輸入端、語(yǔ)音合成引擎的語(yǔ)音輸出端。
在基于電信平臺的語(yǔ)音應用系統中,語(yǔ)音通道的物理設備主要是語(yǔ)音卡、語(yǔ)音信道或者是以數字編碼形式所存在的虛擬通道,如IP 的語(yǔ)音編碼數據包等。而在PC 平臺上,聲卡則成為主要的語(yǔ)音通道。
對不同的平臺的語(yǔ)音通道物理設備的支持,決定了VoiceXML語(yǔ)音瀏覽器可實(shí)際應用的平臺。
2、VoiceXML語(yǔ)音瀏覽器各部分的協(xié)作
VoiceXML語(yǔ)音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過(guò)建立應用(Application)和會(huì )話(huà)(Session),獲取包含控制命令的文檔(Document),根據文檔中的標志(Tag)建立對話(huà)(Dialog),從而解釋各個(gè)對話(huà),控制語(yǔ)音識別、語(yǔ)音合成引擎以及語(yǔ)音通道的觸發(fā)、開(kāi)啟和關(guān)閉、掛起等,實(shí)現與用戶(hù)的會(huì )話(huà)式的交互,并根據對用戶(hù)反應的識別結果進(jìn)行導向判斷,進(jìn)行文檔之間的轉移和應用之間的轉移。
3、無(wú)限商機公司的VoiceXML 語(yǔ)音瀏覽器的開(kāi)放機制
在無(wú)限商機公司 VoiceXML語(yǔ)音瀏覽器中,我們對識別引擎和合成引擎進(jìn)行了開(kāi)放性的接口設計,實(shí)現了與引擎無(wú)關(guān)的設計。根據我們的接口,其它開(kāi)發(fā)商可以開(kāi)發(fā)為其它識別或合成引擎的封裝模塊,從而在我們的VoiceXML語(yǔ)音瀏覽器中使用其它的識別或合成引擎。其可建立于電話(huà)服務(wù)器、PC 、嵌入式設備中,支持國內外語(yǔ)音卡,支持IP 等語(yǔ)音信道。JAVA 版本實(shí)現了100%的跨平臺。
無(wú)限商機公司 VoiceXML語(yǔ)音瀏覽器中,所有開(kāi)發(fā)接口以CORBA 規范設計,其它開(kāi)發(fā)商可以用各種編程語(yǔ)言如C、C++、Java 等在不同的平臺和操作系統上實(shí)現,從而實(shí)現了對各種操作系統平臺的支持。并且,利用CORBA 的強大的分布式機制,整個(gè)VoiceXML語(yǔ)音瀏覽器可以建立于跨越各種物理平臺、操作系統之上的分布式網(wǎng)絡(luò )中。
4、如何在VoiceXML 語(yǔ)音瀏覽器上開(kāi)發(fā)語(yǔ)音應用?
在voiceXML 語(yǔ)音瀏覽器上開(kāi)發(fā)語(yǔ)音應用,如同開(kāi)發(fā)Web應用一樣輕松簡(jiǎn)單。只需要有對XML的知識,就可以開(kāi)發(fā)VoiceXML 應用。基于VoiceXML 的語(yǔ)音應用系統可以很好的和其它已有的Web 應用系統或數據應用系統良好的結合。
開(kāi)發(fā)VoiceXML 語(yǔ)音應用:
在VoiceXML語(yǔ)音瀏覽器基礎的應用開(kāi)發(fā),改變了傳統的CTI系統的開(kāi)發(fā)概念,在這里,開(kāi)發(fā)人員無(wú)須關(guān)心復雜的流程和模塊,無(wú)須為數據接口編寫(xiě)程序模塊,無(wú)須重新建立已有系統的邏輯實(shí)現,也無(wú)須一次次重復某個(gè)模塊的開(kāi)發(fā)。建立VoiceXML語(yǔ)音應用系統,就和建立Web 應用一樣簡(jiǎn)單。
五 基于VoiceXML 機制的語(yǔ)音應用
1、基于VoiceXML 機制的語(yǔ)音應用的特點(diǎn)
基于voiceXML機制的語(yǔ)音應用有以下幾個(gè)特點(diǎn):
2、自由自在的流程
VoiceXML語(yǔ)音應用系統中強調對話(huà)和導向,而不再有固定的流程結構限制。如同用IE 瀏覽網(wǎng)頁(yè)一樣,我們無(wú)法定義清晰的用戶(hù)可能點(diǎn)擊和瀏覽的順序,而是以網(wǎng)頁(yè)為單位,以鏈接為導向。VoiceXML 亦是以同樣的機制來(lái)完成整個(gè)應用的瀏覽。
在VoiceXML 語(yǔ)音應用中,用戶(hù)可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁(yè)一樣任意跳轉到其它頁(yè)中。根據用戶(hù)的語(yǔ)音命令和對事件的捕獲,可以跳轉到其他應用、其它文檔甚至其它對話(huà)中去。
而利用Java Script 、ASP、Perl等描述語(yǔ)言,VoiceXML應用可以動(dòng)態(tài)的根據用戶(hù)的選擇、預制模板和其它數據環(huán)境動(dòng)態(tài)地產(chǎn)生新的應用或文檔以及語(yǔ)法定義,實(shí)現流程的動(dòng)態(tài)生成,使VoiceXML 語(yǔ)音應用不再受預先制定好的流程規范的限制。
3、無(wú)所限制的內容
XML 的機制決定了VoiceXML 腳本語(yǔ)言不僅可以描述數據的式樣,其同樣描述數據的內容和含義。而只要有共同規范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數據,理解其它XML腳本應用中的數據含義。這就是說(shuō),其它的基于XML腳本的Web 應用、數據庫系統、數據文檔都可以輕松的和VoiceXML腳本結合起來(lái)。VoiceXML 應用可以輕松的解釋它們的數據內容,并通過(guò)適當的表現式樣體現出來(lái)。
利用Java Script 、ASP 、Perl 等描述語(yǔ)言所建立的程序,可以訪(fǎng)問(wèn)其它各種各樣的數據來(lái)源,不僅可以產(chǎn)生動(dòng)態(tài)的瀏覽流程,同樣可以產(chǎn)生動(dòng)態(tài)的內容。正如在Web 應用中ASP 所產(chǎn)生的動(dòng)態(tài)網(wǎng)頁(yè)一樣,我們產(chǎn)生的動(dòng)態(tài)VoiceXML語(yǔ)音網(wǎng)頁(yè)具有同樣的瀏覽自由度和內容自由度。
正如基于VoiceXML 的語(yǔ)音郵件應用所表現的那樣,通過(guò)主頁(yè)的導向,根據不同用戶(hù)的用戶(hù)ID ,利用Java Script 或ASP等進(jìn)行對郵件服務(wù)器的訪(fǎng)問(wèn),根據郵件數據、郵件格式和郵件內容會(huì )產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁(yè)。不同的用戶(hù)所訪(fǎng)問(wèn)到的郵件網(wǎng)頁(yè)的結構和內容都是不同的。
4、個(gè)性定制的體現
不同于傳統CTI系統對每個(gè)用戶(hù)的服務(wù)都一模一樣的方式,VoiceXML應用可以根據用戶(hù)自己的喜好定制自己需要的內容。根據已有用戶(hù)的信息數據,如用戶(hù)的特征,用戶(hù)選擇的項目等,利用模板機制,可以生成完全個(gè)性化的應用流程和內容。
在VoiceXML 語(yǔ)音應用系統中,用戶(hù)不僅可以定制他們各自喜好的服務(wù)項目,甚至可以定制他們期望的內容、格式和風(fēng)格,完全體現自己的個(gè)性化。
在基于VoiceXML 的語(yǔ)音門(mén)戶(hù)應用中,用戶(hù)也可以自己開(kāi)發(fā)編寫(xiě)自己的語(yǔ)音網(wǎng)頁(yè),自由體現自我,建立自己的個(gè)人語(yǔ)音網(wǎng)站,展示自我個(gè)性。
六 無(wú)限商機公司的解決方案無(wú)限商機公司 提供了適用于各種不同應用、不同場(chǎng)合、不同行業(yè)的解決方案。
其包括:
1.班次/票務(wù)解決方案
可廣泛應用于民航、列車(chē)、客運、娛樂(lè )等行業(yè)。使電話(huà)查詢(xún)、訂購機票、車(chē)票等將大大減少人工投入,變得自然流暢而快捷,與后臺數據應用的結合將輕而易舉。
2.銀行/金融解決方案
電話(huà)銀行將富有新的特征,無(wú)限商機公司 VoiceXML 語(yǔ)音應用解決方案為金融企業(yè)降低費用和成本,并以?xún)?yōu)勢的競爭力吸引用戶(hù)。通過(guò)語(yǔ)音解決方案,用戶(hù)在任何時(shí)候、任何地方都可以自由的通過(guò)電話(huà)進(jìn)行他們的自助服務(wù)。無(wú)限商機公司 VoiceXML 基于網(wǎng)絡(luò )的解決方案可以降低昂貴的CallCenter 設備和人工成本,并與其它的在線(xiàn)服務(wù)系統協(xié)調工作,平衡負載,以更少的人工坐席就可以完成更好的服務(wù)。
3.語(yǔ)音交易/零售解決方案
無(wú)限商機公司 VoiceXML 語(yǔ)音應用通過(guò)提供帳戶(hù)管理和用戶(hù)自助的方式,可以增強用戶(hù)的安全感和降低交易成本。用戶(hù)可以用他們的說(shuō)話(huà)聲通過(guò)電話(huà)來(lái)訪(fǎng)問(wèn)他們的帳戶(hù),回憶他們曾經(jīng)感興趣的信息,搜索商品信息和價(jià)格,進(jìn)行快捷的交易。而語(yǔ)音的解決方案能夠與已經(jīng)存在的網(wǎng)上訂購、交易系統無(wú)縫結合,大大擴展了原有系統的潛在的用戶(hù)群。使用戶(hù)可以在任何時(shí)候、任何地方訪(fǎng)問(wèn)他們的帳戶(hù)并進(jìn)行交易。
4.證券解決方案
無(wú)限商機公司 VoiceXML 語(yǔ)音應用將大大改善原有的電話(huà)股票查詢(xún)系統。在VoiceXML 語(yǔ)音應用中,用戶(hù)可以自由定制他們所關(guān)心的信息,而濾過(guò)那些無(wú)關(guān)的信息,而且可以以最為自由的方式進(jìn)行查詢(xún)和下單。其下單的處理情況也將通過(guò)多種信息反饋的方式及時(shí)的通知客戶(hù),使客戶(hù)可以及時(shí)處理。
5.語(yǔ)音郵件解決方案
收發(fā)郵件不僅可以用電腦、WAP 手機,用電話(huà)也一樣可以輕松完整,而且更快更方便更準確。無(wú)論在車(chē)上、在外地、在野營(yíng),用戶(hù)都可以通過(guò)撥個(gè)電話(huà)來(lái)及時(shí)地處理郵件信息,為什么還需要一個(gè)笨重的電腦?用聲音作為郵件信息,不比文字更親切,更富含義?
6.保險、信用、費用查詢(xún)/繳費、語(yǔ)音撥號等等解決方案
無(wú)限商機公司 的語(yǔ)音解決方案有著(zhù)廣泛的應用和市場(chǎng),人類(lèi)通過(guò)聲音進(jìn)行的信息交流無(wú)所不在,同樣,跨越通訊網(wǎng)絡(luò )和數據網(wǎng)絡(luò ),語(yǔ)音的應用亦無(wú)所不在。語(yǔ)音應用系統可以廣泛的應用于保險、信用查詢(xún)、費用查詢(xún)/繳費等等應用中去,使用戶(hù)可以實(shí)現真正的足不出戶(hù)而決天下事的輕松生活。
七 無(wú)限商機公司的系列產(chǎn)品
1、無(wú)限商機公司 電信級VoiceXML 語(yǔ)音瀏覽器
無(wú)限商機公司 電信級VoiceXML 語(yǔ)音瀏覽器是建立于電信平臺之上的語(yǔ)音應用系統的開(kāi)放式核心。其作為無(wú)限商機公司 的一樣產(chǎn)品,提供了最為開(kāi)放的接口和最為廣泛的支持。其開(kāi)放了對語(yǔ)音識別引擎、語(yǔ)音合成引擎、語(yǔ)音卡、信道管理等等接口,提供了C/C++、JAVA 以及COM+組件、EJBean 組件、CORBA 等各類(lèi)接口方式。
利用無(wú)限商機公司 電信級VoiceXML 語(yǔ)音瀏覽器,電信系統的開(kāi)發(fā)商和集成商可以自由選擇所中意的各種引擎和平臺,建立他們自己的VoiceXML 語(yǔ)音應用平臺,提供各類(lèi)電信服務(wù)和應用系統,開(kāi)拓新的電信增值業(yè)務(wù)項目。
2、無(wú)限商機公司 基于語(yǔ)音瀏覽的商務(wù)系統
無(wú)限商機公司 基于語(yǔ)音瀏覽的商務(wù)系統,建構于無(wú)限商機公司 VoiceXML Server 基礎上,與傳統的電子商務(wù)有機結合,可以輕易的結合原有的電子商務(wù)系統,也可以在強大的中間件平臺基礎上建構新的語(yǔ)音電子商務(wù)系統。
無(wú)限商機公司 基于語(yǔ)音瀏覽的商務(wù)系統,不僅僅是一個(gè)語(yǔ)音應用系統,而且還包括了完整的電子商務(wù)解決方案。其完備的數據處理功能和系統結構專(zhuān)門(mén)針對語(yǔ)音應用的特點(diǎn)做出了優(yōu)化設計和實(shí)現,使商家對整個(gè)系統的管理、交易的進(jìn)行控制和服務(wù)更為輕松,靈活和高效。
3、無(wú)限商機公司 語(yǔ)音門(mén)戶(hù)
電話(huà)也可以在Internet 上沖浪,門(mén)戶(hù)網(wǎng)站可以選擇無(wú)限商機公司 語(yǔ)音門(mén)戶(hù)網(wǎng)關(guān)將他們的用戶(hù)延伸到龐大的電話(huà)用戶(hù)群中。無(wú)限商機公司 語(yǔ)音門(mén)戶(hù)網(wǎng)關(guān)包括了無(wú)限商機公司 VoiceXML Server 、語(yǔ)音應用站點(diǎn)建設管理工具、發(fā)布系統等等。在無(wú)限商機公司 語(yǔ)音門(mén)戶(hù)網(wǎng)關(guān)上建構語(yǔ)音門(mén)戶(hù),和建立WEB 站點(diǎn)一樣簡(jiǎn)單,甚至可以強有力的支持原有的WEB 站點(diǎn),以更豐富的形式表現給用戶(hù)。
4、無(wú)限商機公司 UMS 平臺
作為個(gè)人通信服務(wù),UMS (統一信息系統)的表現越來(lái)越活躍。用戶(hù)可以通過(guò)各種各樣的工具來(lái)查詢(xún)、獲取信息和得到反饋。E-Mail 、電話(huà)、傳真、短消息與BP 等等的通信形式,在無(wú)限商機公司 UMS 平臺中都得到了充分的體現和發(fā)揮,而用VoiceXML 標記語(yǔ)言不僅僅可以描述對電話(huà)信息方式的處理,而且可以描述其與其它信息方式的溝通和交互,使整個(gè)UMS 平臺成為有機的一個(gè)整體。
5、無(wú)限商機公司 跨越互聯(lián)網(wǎng)和數據網(wǎng)的呼叫中心
呼叫中心將不僅僅為電話(huà)用戶(hù)提供服務(wù),基于WEB 的呼叫中心越來(lái)越受到商家的關(guān)注。兩個(gè)網(wǎng)絡(luò )之間的交互通過(guò)XML 數據標記技術(shù)而變得輕松簡(jiǎn)單。而無(wú)限商機公司 VoiceXML Server 使大部分的對話(huà)都可以由計算機自己完成,大大降低坐席人員的要求和負擔,而使用戶(hù)的使用更為簡(jiǎn)單和自然。
八 應用示例
1、VoiceXML 語(yǔ)音郵件
VoiceXML 語(yǔ)音郵件應用,使用戶(hù)可以通過(guò)電話(huà)等聲音設備收發(fā)電子郵件。在基于VoiceXML的語(yǔ)音郵件應用中,用戶(hù)可以自由的選擇性收聽(tīng)郵件、只聽(tīng)標題或內容、順序瀏覽、隨時(shí)刪除。利用通訊本功能,用戶(hù)通過(guò)說(shuō)出姓名即可發(fā)送語(yǔ)音形式的郵件,讓對方聽(tīng)到自己的聲音信息。
2、VoiceXML股票查詢(xún)
基于VoiceXML 的股票查詢(xún)應用系統,用戶(hù)無(wú)須記住股票代碼,只需說(shuō)出股票名稱(chēng)即可。用戶(hù)可以選擇性定制自己所關(guān)心的幾支股票,只查詢(xún)這幾支股票的信息。通過(guò)更為復雜的模板定制,用戶(hù)還可以定制他們關(guān)心的股票價(jià)格、成交量等細節內容,以喜好的風(fēng)格來(lái)聽(tīng)取,用戶(hù)也可以定制提醒、報警等功能,及時(shí)處理。
3、VoiceXML 天氣查詢(xún)
基于VoiceXML 的天氣查詢(xún)系統,選擇用戶(hù)所關(guān)心的幾個(gè)城市,隨時(shí)查詢(xún)天氣情況,以便安排出行、旅游。
4、VoiceXML 語(yǔ)音游戲
試試和電腦玩玩猜拳游戲吧,聽(tīng)聽(tīng)電腦贏(yíng)時(shí)的得意和輸時(shí)的抱怨,看看你能不能幾句話(huà)說(shuō)得電腦低頭服輸?
北京無(wú)限商機供稿 CTI論壇編輯
融合通訊還有多遠? 2003-04-15 |
我國語(yǔ)音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統一標準規范VAP探討 2002-03-04 |
北京無(wú)限商機 2002-03-04 |
北郵UBO共建實(shí)驗室致力語(yǔ)音數據兩網(wǎng)融合 2002-01-23 |
企業(yè)服務(wù)新形象——UBO Tel-win智能總機 2001-12-20 |