語(yǔ)音應用(VAP)技術(shù)指基于語(yǔ)音進(jìn)行處理的技術(shù),包括語(yǔ)音識別技術(shù)和語(yǔ)音合成技術(shù)等。語(yǔ)音應用技術(shù)(以下簡(jiǎn)稱(chēng)VAP技術(shù))反映了對語(yǔ)音信號進(jìn)行處理的能力,其發(fā)展的程度,將影響計算機通過(guò)語(yǔ)音與人類(lèi)進(jìn)行交互的能力,并將影響計算機應用的領(lǐng)域。
下面將就VAP技術(shù)與CTI技術(shù)的結合進(jìn)行有關(guān)的介紹。
四大變化
我們知道,目前世界范圍內最大的通信網(wǎng)絡(luò )仍然是電話(huà)網(wǎng)絡(luò )。不管將來(lái)數據網(wǎng)絡(luò )技術(shù)如何發(fā)展,人與人之間最方便的交流方式還是語(yǔ)音交流。畢竟對于很多人來(lái)說(shuō),熟練地操作鍵盤(pán)并不是容易的事情。
對于CTI技術(shù)也是一樣。CTI技術(shù)的優(yōu)勢,在于將傳統的電話(huà)語(yǔ)音網(wǎng)絡(luò )發(fā)展成為用戶(hù)獲得各種信息的接入手段,而通過(guò)VAP技術(shù)可以極大地加強這種接入手段的能力。例如,通過(guò)VAP技術(shù),用戶(hù)可以在旅行的過(guò)程中,通過(guò)電話(huà)“聽(tīng)”取自己電子郵件的內容,并通過(guò)語(yǔ)音留言回復有關(guān)的郵件,而不必攜帶笨重的計算機。
CTI技術(shù)的核心是有個(gè)龐大的信息庫,通過(guò)CTI技術(shù)完成與用戶(hù)的交互功能。而采用了VAP技術(shù)后,用戶(hù)就可以通過(guò)語(yǔ)音,直接對這個(gè)信息庫進(jìn)行24小時(shí)的訪(fǎng)問(wèn),并十分容易地獲得各種個(gè)性化服務(wù),這無(wú)疑將會(huì )對CTI技術(shù)產(chǎn)生革命性的影響。
1.接入手段的提升
通過(guò)VAP技術(shù),我們可以直接用語(yǔ)音進(jìn)行有關(guān)的交互工作。其優(yōu)勢表現在如下幾個(gè)方面。
第一,效率提高了。例如,目前在聽(tīng)完了大段的語(yǔ)音提示選單后,我們還要不斷地停下來(lái),按動(dòng)電話(huà)上有限的數字按鍵,進(jìn)行相應的選擇,然后繼續聽(tīng)下一段的語(yǔ)音提示。
在使用了VAP技術(shù)后,我們可以像與服務(wù)員一樣,采用語(yǔ)音的方式,連續地聽(tīng)語(yǔ)音選單,并直接通過(guò)語(yǔ)音“說(shuō)”出相關(guān)的選擇,避免了連續按鍵的過(guò)程。
第二,交互的界面更加豐富了。我們知道,傳統的電話(huà)僅能通過(guò)DTMF信號,傳送有限的幾個(gè)數字及符號按鍵,這使得與用戶(hù)的交互界面常常受到限制,而VAP技術(shù)則采用了語(yǔ)音識別的方式,其交互的界面幾乎不受限制,極大地擴展了交互的能力。
第三,信息終端的小型化。在目前,信息終端普遍是計算機,體積大而不便攜帶。采用VAP技術(shù)以后,電話(huà)將成為有效的信息終端。用戶(hù)在馬路邊的公共電話(huà)亭,就可以方便地獲得信息,將產(chǎn)生出許多嶄新的應用。
2.開(kāi)辟語(yǔ)音服務(wù)的廣闊市場(chǎng)
將VAP技術(shù)與CTI技術(shù)相結合,將產(chǎn)生許多新的業(yè)務(wù)應用。這些應用不僅可以強化CTI傳統的一些應用,如語(yǔ)音自動(dòng)應答業(yè)務(wù)等,而且能夠發(fā)展出許多嶄新的業(yè)務(wù)應用,既豐富了為用戶(hù)服務(wù)的形式,也給運營(yíng)商帶來(lái)巨大的利潤。具體的例子詳見(jiàn)本文下面的應用舉例。
3.與移動(dòng)通信技術(shù)的結合,促進(jìn)個(gè)人化信息終端的發(fā)展
目前的移動(dòng)通信技術(shù),可以使用戶(hù)在語(yǔ)音通信方面具有移動(dòng)性。與VAP技術(shù)結合后,用戶(hù)可以方便地在移動(dòng)中,通過(guò)語(yǔ)音獲得各種信息。
這可以在某種程度上,分擔WAP技術(shù)中顯示屏幕過(guò)小所帶來(lái)的信息訪(fǎng)問(wèn)的不便。例如,可以通過(guò)WAP進(jìn)行有關(guān)文字方面的檢索,然后將大段的信息通過(guò)語(yǔ)音拼讀以語(yǔ)音的形式通知用戶(hù)。
4.促進(jìn)自動(dòng)信息服務(wù)的發(fā)展
在傳統的IVR系統中,只能事先錄好各種提示音,既占用了大量的存儲資源,又很難靈活應對用戶(hù)的交互需求。采用VAP技術(shù)以后,事先可以不用錄制提示音,信息仍以數字化方式存在,通過(guò)語(yǔ)音合成技術(shù)將信息“讀”給用戶(hù)聽(tīng)。這樣,IVR還可以擔負有關(guān)的信息檢索的功能。例如,通過(guò)有關(guān)的搜索引擎,可以直接在互聯(lián)網(wǎng)上檢索信息,并將結果“讀”給用戶(hù)。
由于這種技術(shù)是24小時(shí)不間斷的,而且服務(wù)的內容完全可以依據海量的信息庫自動(dòng)進(jìn)行,因此將完全改變現有IVR系統的形式和內容。
四大新應用
下面列舉一些VAP技術(shù)與CTI技術(shù)結合后的應用例子。
1. 電子郵件語(yǔ)音識別
采用VAP技術(shù)后,用戶(hù)可以直接通過(guò)撥打一個(gè)電話(huà),而“聽(tīng)”自己的新郵件內容,并通過(guò)電話(huà)直接進(jìn)行語(yǔ)音回復。在撥通號碼的時(shí)候,系統首先進(jìn)行有關(guān)的用戶(hù)身份鑒別,然后檢查郵箱。如果有新的電子郵件到達,將通過(guò)語(yǔ)音合成技術(shù),將郵件的題目和發(fā)信人直接“讀”給用戶(hù)聽(tīng),然后通過(guò)語(yǔ)音識別技術(shù)判斷用戶(hù)的選擇,如果用戶(hù)想知道郵件的內容,則繼續通過(guò)語(yǔ)音合成技術(shù),將郵件的內容讀給用戶(hù)聽(tīng)。當用戶(hù)需要進(jìn)行立刻回復時(shí),系統將自動(dòng)錄取用戶(hù)的回復內容,并將該錄音文件通過(guò)電子郵件系統回復給發(fā)信人。
如果用戶(hù)想發(fā)新的郵件,可以通過(guò)語(yǔ)音識別技術(shù),告訴系統收信人地址,然后將該郵件直接發(fā)給收信人。如果“語(yǔ)音”郵件不方便閱讀,則可以通過(guò)語(yǔ)音識別技術(shù)將用戶(hù)的語(yǔ)音信息轉成文字信息,然后傳給有關(guān)的閱信人。
2. 虛擬主持人
通過(guò)語(yǔ)音合成技術(shù),目前已經(jīng)出現了虛擬主持人主持的新聞節目。用戶(hù)在互聯(lián)網(wǎng)上有關(guān)站點(diǎn)檢索到自己感興趣的內容后,屏幕上將顯示一個(gè)虛擬的主持人形象(一般是通過(guò)動(dòng)畫(huà)技術(shù)來(lái)顯示),這位主持人將根據信息的內容,自動(dòng)地通過(guò)語(yǔ)音合成技術(shù)將這些信息播放給用戶(hù),同時(shí)嘴唇做相應的動(dòng)作,就像新聞播音員直接進(jìn)行報道一樣。這種虛擬主持人技術(shù),可以提供24小時(shí)的全天候報道,報道的內容根據用戶(hù)選擇的內容決定。
這種虛擬的主持人技術(shù),可以應用到新聞、娛樂(lè )等不同的領(lǐng)域,如果與電視應用結合,還會(huì )產(chǎn)生出更多的應用內容。
3. 聲紋密碼識別
目前,我們的身份識別可以采用指紋、照片等方式進(jìn)行。另一方面,每個(gè)人的聲音也包含了其自身的特點(diǎn),如果將其作為身份鑒別的一種依據,就要考慮聲紋密碼識別技術(shù)。
能夠通過(guò)聲紋識別技術(shù),可以完全確定一個(gè)人的身份,就可以極大地加強在語(yǔ)音方面的應用領(lǐng)域。例如,在現有的電話(huà)系統中,如果沒(méi)有專(zhuān)用的端加密設備,通過(guò)DTMF信號輸入身份密碼,很容易就可能被別人竊取。而如果是通過(guò)聲紋鑒別技術(shù),可十分安全地保證系統的可靠性,同時(shí)別人無(wú)法模仿,即使竊取了也沒(méi)有用處。這樣,將來(lái)就可以很容易地進(jìn)行有關(guān)的電話(huà)銀行業(yè)務(wù)的處理。通過(guò)電話(huà),用戶(hù)就可以進(jìn)行各種銀行業(yè)務(wù),遠遠超出今天電話(huà)銀行所能夠提供的業(yè)務(wù)內容。
另一方面,在CTI應用中,傳統的“Screen Pop”功能,僅能夠通過(guò)用戶(hù)的主叫號碼進(jìn)行用戶(hù)身份的自動(dòng)識別,而電話(huà)號碼并不能唯一地確定用戶(hù)的身份。通過(guò)聲紋識別技術(shù),可以唯一地確定用戶(hù)的身份,因此能更加快捷地為用戶(hù)提供“個(gè)性化”服務(wù)。
同時(shí),在電話(huà)訂購商品方面,也將有極大的推動(dòng)作用。廠(chǎng)家可以根據有關(guān)的聲紋識別技術(shù),判斷這些信息的可信度如何,并據此決定是否送貨等,由此可以大大地提高電話(huà)訂購商品的效率,推動(dòng)“電話(huà)商務(wù)”的發(fā)展。
4. 語(yǔ)音瀏覽互聯(lián)網(wǎng)
目前,互聯(lián)網(wǎng)是世界上最大的信息庫,而通過(guò)計算機進(jìn)行信息檢索,對移動(dòng)用戶(hù)等十分地不便。如果通過(guò)電話(huà)網(wǎng)絡(luò ),就可以在互聯(lián)網(wǎng)上進(jìn)行信息檢索,無(wú)疑具有十分誘人的前景。通過(guò)語(yǔ)音合成技術(shù),可以將檢索到的信息以簡(jiǎn)單的形式播放給用戶(hù)聽(tīng),然后用戶(hù)可選擇是否聽(tīng)詳細的內容。
以上僅列舉了一些應用的內容。因為CTI技術(shù)代表的是與電話(huà)網(wǎng)絡(luò )的接口,而VAP技術(shù)則代表了通過(guò)語(yǔ)音技術(shù)進(jìn)行信息處理的能力。因此,兩者的結合,能夠產(chǎn)生出更多的、目前無(wú)法預料的業(yè)務(wù)應用。
影響力還會(huì )更深
目前的VAP技術(shù),還存在許多的技術(shù)難點(diǎn)。英語(yǔ)方面研究較多,也比較成熟,有些方面已經(jīng)可以進(jìn)行商用。但在漢語(yǔ)方面,還有很多的工作要做。另一方面,由于VAP技術(shù)還比較新,因此在CTI產(chǎn)業(yè)中還沒(méi)有形成影響力,缺乏一支相應的產(chǎn)業(yè)化隊伍進(jìn)行推動(dòng)。
為此,應加大在兩者相互結合方面的研究工作。同時(shí),結合一些已經(jīng)可以商用的VAP技術(shù),尋找可以商用的應用業(yè)務(wù),為用戶(hù)帶來(lái)真正的實(shí)惠。
在VAP技術(shù)與CTI技術(shù)結合方面,還要做大量的宣傳工作,吸引兩方面企業(yè)聯(lián)合,共同開(kāi)拓有關(guān)的市場(chǎng)。