VoiceXML語(yǔ)音門(mén)戶(hù)的引擎
冉隆科 2000/12/11
曾幾何時(shí),人們對XML已耳熟能詳,并將它用于描述圖像和結構復雜的其他數據。Web技術(shù)發(fā)展之快令人驚嘆!現在,業(yè)界又正在展開(kāi)一項XML的新的應用:VoiceXML(話(huà)音可擴展標記語(yǔ)言),其主要特點(diǎn)是通過(guò)語(yǔ)音輸入和音頻輸出支持人機對話(huà)。
1999年,AT&&T、IBM、朗訊科技和摩托羅拉公司等組成了VoiceXML論壇,旨在討論將VoiceXML確定為通過(guò)話(huà)音和電話(huà)利用Internet內容的標準。目前,參加該論壇的公司達150多家。討論所涉及的主要內容包括將VoiceXML作為標準,怎樣用VoiceXML解釋程序取代HTML解釋程序,用人的語(yǔ)音取代鼠標和鍵盤(pán)。
下面就VoiceXML的基本功能、VoiceXML 1.0版的主要特性和分布式模型等作一簡(jiǎn)要介紹。
VoiceXML的基本功能
VoiceXML是萬(wàn)維網(wǎng)集團(W3C)定義的可擴展標記語(yǔ)言(XML)的一種新的應用。或者說(shuō)它是一種域專(zhuān)用語(yǔ)言,根據所播放的音頻文件、要口述的文本、要記錄和識別的語(yǔ)言以及所收集的按鍵音輸入,定義人和計算機之間的對話(huà)。VoiceXML可以描述傳統的語(yǔ)音響應業(yè)務(wù)以及新的混合主動(dòng)式業(yè)務(wù)。
VoiceXML保護應用開(kāi)發(fā)程序不受同時(shí)多線(xiàn)程控制——資源供給和平臺專(zhuān)用API等問(wèn)題的影響,因為這些問(wèn)題都由交互式話(huà)音響應(IVR)平臺的VoiceXML客戶(hù)程序去處理。這種保護功能使平臺之間具有更大的業(yè)務(wù)可移植性。
VoiceXML與XML相比具有某些重要的優(yōu)點(diǎn),其中最主要的優(yōu)點(diǎn)是能夠重復使用和容易重組現有的軟件工具,以生成、轉換和分析XML文件,而且還能使VoiceXML利用其他基于XML的補充標準。例如,VoiceXML應用程序有時(shí)需要確定語(yǔ)音合成參數,比如音量、講話(huà)快慢和音調等。
從VoiceXML的對話(huà)看,調用程序將電話(huà)號碼撥入具有VoiceXML客戶(hù)程序的IVR平臺。該平臺將電話(huà)號碼送給URL,而客戶(hù)程序把HTTP請求送給專(zhuān)用的URL。Web服務(wù)器用包含同調用程序執行對話(huà)的VoiceXML文件表示響應。客戶(hù)程序解釋該文件,從而與調用程序、播放提示、收集按鍵音輸入的信息交互作用,最后將收集的信息提交給文件本身指定的URL。Web服務(wù)器處理輸入,用處理后的文件表示回答,從而繼續進(jìn)行對話(huà)。
VoiceXML的主要特性
VoiceXML 1.0版的主要特性可以分為4個(gè)方面:對話(huà)、電話(huà)、平臺和性能。
1.對話(huà)特性
每個(gè)VoiceXML文件由一次或多次對話(huà)組成。對話(huà)特性包括收集按鍵音輸入、音頻輸出的生成、異步事件的處理、客戶(hù)端編寫(xiě)腳本的性能以及對話(huà)的連續性。VoiceXML支持下面的輸入格式:音頻記錄、自動(dòng)語(yǔ)音識別和按鍵音。輸出可以是預先記錄的音頻文件、
文本對應于語(yǔ)音的生成或二者兼而有之。
VoiceXML支持異步事件的生成和處理。異步事件有兩種:一是內部事件,如超時(shí)、未被識別的輸入或請求幫助;二是用戶(hù)定義的事件。事件處理程序一般確定要提供給調用程序的某些新的輸出,以及是否繼續現在的對話(huà)或轉換到另外的對話(huà)。
為使服務(wù)器的響應時(shí)間最短,VoiceXML允許在一次對話(huà)中收集多個(gè)數據段,并允許用這種數據段編寫(xiě)客戶(hù)端腳本。對話(huà)還確定何時(shí)根據用戶(hù)的輸入將數據提交給另一個(gè)URL服務(wù)邏輯,以及何時(shí)轉換成不同的對話(huà)。
VoiceXML還支持傳統的IVR系統,即選單、定向對話(huà)以及新的混合主動(dòng)式人機交互樣式。選單交互樣式允許調用程序從一系列的選項中選擇幾個(gè)選項。定向對話(huà)交互樣式可使調用程序連續收集數據集。混合主動(dòng)式對話(huà)交互樣式可使調用程序以單一語(yǔ)調輸入多個(gè)數據段,并提供部分信息。
這里以天氣信息為例,表明不同的人機交互樣式提供的信息各不相同,但主動(dòng)式更快捷(見(jiàn)表1)。
2.電話(huà)特性
VoiceXML對電話(huà)連接實(shí)施基本控制。它允許文件制作者規定何時(shí)拆接,何時(shí)傳送呼叫。傳送是一種跟隨特性,即只要呼叫被成功傳送,并連接到被呼叫人,例如客戶(hù)的業(yè)務(wù)代表,便立即隱藏端接VoiceXML對話(huà)的傳送,暫停VoiceXML對話(huà)。與被呼叫人的對話(huà)結束后,VoiceXML對話(huà)繼續進(jìn)行。這一特性可節省呼叫傳送時(shí)間,有利于在后續URL請求中提交其他數據。
3.平臺特性
VoiceXML在提供描述對話(huà)的標準方法的同時(shí),還能提供容納單個(gè)平臺的機制。這包括調用平臺專(zhuān)用功能和控制平臺專(zhuān)用屬性。例如,一個(gè)平臺具有先進(jìn)的講話(huà)人驗證組件,而另一個(gè)平臺可能具有定制信用卡對話(huà),可以控制其專(zhuān)用的語(yǔ)音識別參數。無(wú)線(xiàn)環(huán)境里的客戶(hù)程序可以提供主叫用戶(hù)的位置。所有這些專(zhuān)用平臺特性都可借助VoiceXML平臺一種或幾種特性得以實(shí)現。
4.性能特性
VoiceXML文件和這些文件所使用的資源,以及URL確定的每一種資源的位置都是基于Web的。這些資源包括音頻文件、輸入語(yǔ)法、腳本和對象。VoiceXML客戶(hù)程序必須在使用這些資源之前查找和安裝這些資源。VoiceXML服務(wù)提供商要面對的一個(gè)問(wèn)題是在讀取資源的同時(shí),主叫用戶(hù)聽(tīng)到的是極其微弱的“靜音”。當系統查找資源時(shí),采用可視瀏覽器的PC用戶(hù)看到一個(gè)旋轉圖標,但是與VoiceXML平臺保持聯(lián)系的主叫用戶(hù)也可能察覺(jué)不到這種業(yè)務(wù)是基于Web的,因此有可能把“靜音”看作是失去聯(lián)系的信號。
VoiceXML提供幾種消除或隱藏與查找Web資源有關(guān)的靜音的裝置。像可視瀏覽器一樣,VoiceXML客戶(hù)程序可以使用高速緩存而無(wú)需讀出數據。與可視瀏覽器所不同的是,VoiceXML客戶(hù)程序不必再裝入按鈕,這樣VoiceXML便讓文件編制人能夠確定是否使用高速緩存資源,或查找新的拷貝。
當必須查找新的資源拷貝時(shí),文件編制人可以指定查找需等候的時(shí)間,對于某些資源還可以在讀取期間確定要播放的音頻文件。
VoiceXML還了解有些客戶(hù)程序在使用資源之前可能讀取資源。只要裝入音頻文件,文件編制人員就可以提示與可能要讀取的資源有關(guān)的客戶(hù)程序。這種資源讀取可能與文件解釋同時(shí)進(jìn)行,其目的在于按二者所需的時(shí)間利用資源和解釋文件。
VoiceXML分布式模型
Web為每個(gè)用戶(hù)提供全球范圍的信息,同時(shí)給每個(gè)信息和服務(wù)提供商提供全球范圍的用戶(hù)。因此,分布式應用模型是Web的基本模型;VoiceXML建立在與基于Web的相同的模型上。圖1表示通過(guò)電話(huà)訪(fǎng)問(wèn)的VoiceXML業(yè)務(wù)使用的基于Web的分布式應用模型。
在這種應用模型中,除HTML解釋程序(Web瀏覽器)被VoiceXML解釋程序取代,語(yǔ)音取代作為用戶(hù)接口媒介的鼠標和鍵盤(pán)外,VoiceXML結構與可視Web模型的結構基本相同。除其核心能力外,VoiceXML提供更先進(jìn)的功能特性,包括本地驗證和處理、音頻回放和記錄,以及支持上下文特有的修剪,并支持可重用的附屬對話(huà)。
用戶(hù)輸入的本地處理和驗證是通過(guò)收集提供標準編程模型的諸多元素實(shí)現的。一個(gè)“程序塊”元素允許代碼在收集輸入的過(guò)程中的任何一點(diǎn)運行。一個(gè)“填充”元素可使輸入驗證代碼,根據用戶(hù)輸入的任何一組數據提高控制效能;該元素對混合主動(dòng)式對話(huà)特別有用,因為在該模型中用戶(hù)能夠用任何指令應用輸入。“腳本”元素可使JavaScript程序碎段在對話(huà)過(guò)程中的任何一點(diǎn)運行。(下轉E11版)
預先記錄的音頻提示的回放是通過(guò)“音頻”元素完成的。用戶(hù)信息的記錄是通過(guò)“記錄”元素完成的;而后,記錄的音頻可以通過(guò)“音頻”元素回放,或者上裝到服務(wù)器,供存儲、處理或以后回放使用。
同時(shí),上下文特有的修剪幫助由內部事件系統和事件處理程序提供。例如,VoiceXML定義一系列相對于用戶(hù)請求幫助的事件。這種應用還可以在任何給定的上下文中(包括表格或字段),提供相對于特定上下文的特定的事件。
最后,VoiceXML對附屬對話(huà)(所執行的完整的表格)提供支持,對話(huà)的結果是對另一個(gè)表格提供輸入字段。這一功能特性有兩個(gè)用途,一是對輸入消除多義性或確認對話(huà),二是支持可重用的附屬對話(huà)。
青出于藍而勝于藍
盡管VoiceXML重用許多HTML的概念和設計,但由于可視和語(yǔ)音交互之間的區別,它在幾個(gè)方面具有不同的特點(diǎn)。例如,HTML文件是從統一資源識別符確定的網(wǎng)絡(luò )資源中讀出的單個(gè)元素,并同時(shí)將所有的元素提供給用戶(hù)。VoiceXML則不同,它包含若干對話(huà)元素(選單、表格),依次順序地將這些元素提供給用戶(hù)。這種區別歸因于可視媒介能夠同時(shí)顯示若干選項,而話(huà)音媒介本來(lái)就具有連續性特點(diǎn)。
因此,盡管特定的VoiceXML文件可以包含與相對應的HTML文件的相同的信息,但VoiceXML文件不同的結構反映了話(huà)音媒介的連續性,而HTML只相當于前面所述的VoiceXML文件中的選單。
就HTML而言,沒(méi)有必要把這種選單視為一個(gè)元素,或者使用標記結構把它與同一頁(yè)面上的其他元素分隔開(kāi)來(lái)。但是,VoiceXML要求把對話(huà)元素(選單和表格)看作是不同的元素,以便一次對用戶(hù)提供一個(gè)元素。因此,HTML文件實(shí)際上起單一對話(huà)元素的作用,而
VoiceXML文件是對話(huà)元素(如選單和表格)的一個(gè)容器,每個(gè)容器包含對文本元素排列解釋程序的邏輯。
選單 |
定向對話(huà) |
混合主動(dòng)式對話(huà) |
計算機:對安徽輸出1; |
計算機:請問(wèn)你要哪個(gè)省的天氣? |
計算機:你想要哪個(gè)省和城市的天氣? |
話(huà)音媒介連續性的再一個(gè)不同特點(diǎn)是要求標記包含應用邏輯,以用于在對話(huà)元素之間排列程序。這一要求反映在順序邏輯元素的集成方面,VoiceXML比HTML更緊湊。例如,VoiceXML包含順序控制元素,而在HTML中,這種控制只能通過(guò)更麻煩的編寫(xiě)腳本的方法才能實(shí)現。
W3C語(yǔ)音瀏覽器工作組已將VoiceXML 1.0版確定為對話(huà)標記語(yǔ)言的基礎。VoiceXML客戶(hù)程序和VoiceXML應用業(yè)務(wù),目前已在許多公司中開(kāi)始實(shí)用。
《賽迪市場(chǎng)專(zhuān)家》2000/12/11
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 大田县| 牟定县| 渭南市| 黑龙江省| 鹤峰县| 肇东市| 惠安县| 丰顺县| 永泰县| 三江| 伊川县| 滨州市| 富宁县| 永济市| 铁岭市| 徐汇区| 五莲县| 师宗县| 盘山县| 财经| SHOW| 南京市| 西宁市| 兰州市| 尚义县| 华阴市| 五莲县| 财经| 越西县| 唐河县| 延边| 扬中市| 仁化县| 齐河县| 汉源县| 漠河县| 遵义县| 霍州市| 常州市| 新余市| 邛崃市| http://444 http://444 http://444 http://444 http://444 http://444