高端人聲識別技術(shù)的研究與應用
2001/08/02
一、 技術(shù)背景
是否有過(guò)這樣的經(jīng)歷?已經(jīng)是某某企業(yè)呼叫中心的常客了,但撥通該呼叫中心的號碼時(shí),還是必須向客服人員解釋你是他們某某產(chǎn)品的用戶(hù),而今你必須獲得他們的維修服務(wù)。這個(gè)自報家門(mén)的工作其實(shí)足夠繁瑣到令你放棄這次呼叫。
但有一種新型的技術(shù)可以讓你在撥通電話(huà)、發(fā)出第一個(gè)音節時(shí)就被“驗明身份”。設想你撥打一個(gè)很久以前曾撥打過(guò)的呼叫中心號碼,準備詢(xún)問(wèn)呼叫中心的客服人員你罷工的油煙機該找誰(shuí)修理。根據語(yǔ)音提示進(jìn)入服務(wù)區后,“hi,我…”你的請求還沒(méi)有說(shuō)完,客服小姐已經(jīng)在向你問(wèn)候了:“王女士,您的油煙機用的怎么樣了?”
在這個(gè)過(guò)程中,客服小姐是利用呼叫中心的SR系統,根據王女士的聲音,對其身份進(jìn)行鑒別的。所以無(wú)需浪費任何時(shí)間,客服小姐在第一時(shí)間知道電話(huà)請求者是王女士。至于她有一臺該呼叫中心所屬企業(yè)售出的油煙機的事情,客服小姐是從系統的數據庫里知道的。
人聲識別技術(shù)(SR——Speaker Recognition)是一種以話(huà)音對說(shuō)話(huà)人進(jìn)行區分,從而進(jìn)行身份鑒別與認證的技術(shù)。墜落在中國海南的美國EP-3飛機被宣稱(chēng)藏有大量說(shuō)話(huà)人識別技術(shù)的機密,據說(shuō)其技術(shù)水平已經(jīng)可以區分出“是誰(shuí)打的嗝兒”。在國外,說(shuō)話(huà)人識別技術(shù)被廣泛研究,也已有少量成熟產(chǎn)品問(wèn)世。AT&T、TI(美國德州儀器公司)與美國著(zhù)名的通訊公司Sprint已經(jīng)開(kāi)始在聲音識別領(lǐng)域的實(shí)驗和實(shí)際的應用。
說(shuō)話(huà)人識別技術(shù)有著(zhù)廣闊的市場(chǎng)應用前景。通過(guò)SR技術(shù),可以利用人本身的生物特性進(jìn)行身份鑒別,如給公安部門(mén)進(jìn)行語(yǔ)音驗證、對一般用戶(hù)進(jìn)行防盜門(mén)開(kāi)啟等。在互聯(lián)網(wǎng)應用及通信領(lǐng)域,SR技術(shù)可以應用于諸如聲音撥號、電話(huà)銀行、電話(huà)購物、數據庫訪(fǎng)問(wèn)、信息服務(wù)、語(yǔ)音Email、安全控制、計算機遠程登陸等。
在呼叫中心應用上,SR技術(shù)同樣可以提供更加個(gè)性化的人機交互界面。當顧客以電話(huà)方式對呼叫中心進(jìn)行請求時(shí),系統能夠根據話(huà)音判斷出來(lái)者的身份,從而提供更個(gè)性化、更貼心的服務(wù)。在國內的SR研究中,已經(jīng)處于怎樣的進(jìn)展水平?據了解,南京北極星軟件公司的研究走在了國內其他廠(chǎng)商的前列,其采用SR技術(shù)構造的呼叫中心產(chǎn)品也即將推出。
二、技術(shù)原理
SR有著(zhù)深刻的技術(shù)背景。其基本原理是通過(guò)分析人的發(fā)聲和聽(tīng)覺(jué),為每個(gè)人構造一個(gè)獨一無(wú)二的數學(xué)模型,由計算機對模型和實(shí)際輸入的語(yǔ)音進(jìn)行精確匹配,根據匹配結果辨認出說(shuō)話(huà)人是誰(shuí)。該原理同說(shuō)話(huà)人的生理特性和行為特性密切相關(guān)。“人”的生物特性既存在于聲譜表面(聲道特性),也存在于聲音的來(lái)源或數個(gè)不連續的聲音片斷。從人的這些特性中提取出有效的音頻特征,進(jìn)行數學(xué)建模,并將與之相關(guān)的資料存進(jìn)數據庫。SR服務(wù)器根據輸入的音頻特征在數據庫里進(jìn)行檢索,從而進(jìn)行精確匹配。
在北極星公司的研究中,構造了“訓練模塊”和“識別模塊”,兩種模塊使用同樣的數學(xué)算法和模型。
訓練模塊
訓練模塊又由兩個(gè)部分組成:音頻特征提取部分和構造數學(xué)模型部分。
音頻特征提取時(shí),根據人的發(fā)聲原理和聽(tīng)覺(jué)原理,采用了MFCC和LPCC的特征提出算法。該算法可以將人的聲音提取出能量分布譜。這種算法能從聲音數據中獲得說(shuō)話(huà)人的獨特特征。但是當人說(shuō)不同的話(huà)時(shí),分布譜會(huì )受到影響。也就是說(shuō)即使是同一個(gè)人,如果說(shuō)的話(huà)不同,聲音分布譜也是不同的。為解決這個(gè)問(wèn)題,必須進(jìn)行第二部分,構造數學(xué)模型。
構造數學(xué)模型時(shí),使用了GMM和CHMM的算法。它可以將人在多個(gè)短時(shí)間內的能量分布譜構造成多個(gè)高斯分布。通過(guò)EM算法進(jìn)行訓練,找出最為合理的高斯分布組。實(shí)驗中,北極星為每個(gè)接受訓練者構造一個(gè)獨一無(wú)二的數學(xué)模型。
識別模塊
識別模塊也由兩個(gè)部分組成:音頻特征提取部分和數學(xué)模型的概率估計部分。
音頻特征提取時(shí),采用的方法和訓練模塊相同。
做概率估計時(shí),將特征提取的結果帶入原來(lái)訓練出來(lái)的數學(xué)模型中,計算出概率,將多個(gè)特征譜的概率取對數求和,即計算出該人符合這個(gè)數學(xué)模型的概率。概率較大時(shí)即可進(jìn)行身份確認和檢驗。
三、技術(shù)應用
SR技術(shù)的應用在國際上已經(jīng)比較成熟。Sprint的聲音電話(huà)卡(Voice Phone Card)擁有眾多的用戶(hù)。電話(huà)卡的擁有者只需對著(zhù)電話(huà)念出對方的電話(huà),智能卡根據聲音進(jìn)行鑒權,判斷說(shuō)話(huà)人是否是電話(huà)卡的合法使用者,從而做出撥通與否的決定。在這種方式中,SR技術(shù)創(chuàng )造出的增值業(yè)務(wù)為運營(yíng)商帶來(lái)豐厚的收益,也為我們的日常生活帶來(lái)便利。
在我國,由于漢語(yǔ)言的獨特性,國外SR研究的技術(shù)成果無(wú)法直接使用。國內眾多廠(chǎng)商也缺少語(yǔ)音方面的技術(shù)積累,進(jìn)入該領(lǐng)域的步伐相對滯后。為了將這種尖端的技術(shù)引入中國,北極星軟件已經(jīng)開(kāi)始了自己的研究歷程,并致力于將現有的研究成果產(chǎn)業(yè)化,結合到其呼叫中心產(chǎn)品FineSupport IP Contact Center中來(lái),增加產(chǎn)品的實(shí)用性和科技含量。
SR技術(shù)的這種特性應用在呼叫中心等語(yǔ)音產(chǎn)品上時(shí),能為之帶來(lái)前所未有的變革。
目前幾乎所有的呼叫中心都采用來(lái)電顯示的方法來(lái)對發(fā)起呼叫請求的用戶(hù)進(jìn)行身份鑒別。這種方法有極大的不確定性。當不同的用戶(hù)使用同一個(gè)電話(huà)號碼進(jìn)行呼叫時(shí),呼叫中心系統無(wú)法對之進(jìn)行相應的區分;另一個(gè)問(wèn)題,同一個(gè)客戶(hù)不會(huì )也不可能僅使用一個(gè)電話(huà)同呼叫中心進(jìn)行聯(lián)絡(luò ),如果客戶(hù)更換電話(huà),呼叫中心同樣不能認出這是“老朋友”,從而無(wú)法迅捷地提供個(gè)性化的服務(wù)。
北極星軟件公司將SR的研究應用到呼叫中心產(chǎn)品,在原有的系統中加入了語(yǔ)音鑒別設備SR Server(說(shuō)話(huà)人識別服務(wù)器),從而能夠通過(guò)客戶(hù)的聲音進(jìn)行檢索,解決了一個(gè)客戶(hù)使用多個(gè)電話(huà)和多個(gè)客戶(hù)使用一個(gè)電話(huà)、不同客戶(hù)交叉使用不同電話(huà)的問(wèn)題,為客戶(hù)提供真正“一對一”個(gè)性化的服務(wù)。這種新型FineSupport IP Contact Center的結構圖如下:
其工作過(guò)程如下:
1. 用戶(hù)撥打呼叫中心的電話(huà)號碼;
2. 由ACD響應,并將電話(huà)接入IVR(交互語(yǔ)音應答系統),詢(xún)問(wèn)客戶(hù)需要幫助的類(lèi)型,并將客戶(hù)的語(yǔ)音應答傳送到SR Server;
3. SR Server根據原有的語(yǔ)音訓練模型對該用戶(hù)進(jìn)行識別,并到數據庫進(jìn)行認證和檢索;
4. 如果此時(shí)有接線(xiàn)人員處于空閑狀態(tài),ACD將這個(gè)呼叫轉移,并同SR Server識別的結果傳送到接線(xiàn)人員的計算機上;
5. 如果SR的識別結果為空(此前該用戶(hù)沒(méi)有撥打過(guò)本呼叫中心的電話(huà)),系統可以為該用戶(hù)建立模型,以供下次識別時(shí)使用。
四、未來(lái)方向
SR未來(lái)的發(fā)展方向包含兩方面的內容:研究方法和市場(chǎng)應用。
在SR的研究方法上,盡管北極星已經(jīng)取得不錯的進(jìn)展,尋找更加優(yōu)良的研究方法仍然有相當艱巨的路要走。由于技術(shù)條件所限,目前所采用的抽樣建模方法等還存在著(zhù)不足。對SR最有影響的因素是在不同實(shí)驗中聲音特性信號的變更,包括說(shuō)話(huà)者生理上的變動(dòng)性,以及實(shí)驗條件的不穩定性等。這就對SR識別系統形成嚴峻的挑戰。它必須能適應這些變化。SR的未來(lái)研究中將包含提取聲音長(cháng)期穩定的特征參數的問(wèn)題。另外,在兩個(gè)人進(jìn)行交談時(shí),能自動(dòng)從中提取出每個(gè)人的聲音特性并加以區分的技術(shù)也是值得研究的方向。在下一步的研究中,北極星將繼續提高系統的識別率,同時(shí)進(jìn)行更大規模的電話(huà)語(yǔ)音測試。
SR的市場(chǎng)應用也是一個(gè)重要的課題。毫無(wú)疑問(wèn),隨著(zhù)研究技術(shù)的日臻完善,SR的市場(chǎng)應用也將趨于成熟。FineSupport的崛起打開(kāi)了SR在中國應用的缺口,為企業(yè)建立個(gè)性化的呼叫中心提供了更多的選擇,增加了可行性。在相關(guān)法律、金融等領(lǐng)域,SR技術(shù)也將是其嘗試運作嶄新工作方式的契機。
摘自計算機世界網(wǎng)
北極星軟件與廣東聯(lián)通共建165WebPhone 2003-03-12 |
英特爾與北極星軟件攜手打造寬帶新應用 2003-03-12 |
北極星CEO出席ITU TELECOM Asia 2002-12-26 |
北極星推出固網(wǎng)預付費系統 2002-12-17 |
北極星參加Intel解決方案全國巡展 2002-11-12 |