劉駿:大家好,我是東進(jìn)公司產(chǎn)品經(jīng)理劉駿,今天很高興能和大家一起共同探討新技術(shù)在行業(yè)中的應用,今天我講的是"聲紋識別技術(shù)及其應用"。
為什么會(huì )講這個(gè)主題呢,一是東進(jìn)技術(shù)與清華大學(xué)合作,將聲紋識別技術(shù)應用在了中國建設銀行的手機銀行業(yè)務(wù)中,這是將東進(jìn)技術(shù)硬件設備上的研發(fā)優(yōu)勢和清華大學(xué)在底層算法上的科研優(yōu)勢相結合的一個(gè)有益嘗試。二是以聲紋識別、人臉識別為代表的生物特征識別在近幾年特別火,不談其他的,就我們這個(gè)行業(yè)而言,可以看到,無(wú)論是呼叫中心行業(yè)還是通信企業(yè),人工智能應用越來(lái)越多了,如我們可以看到智能機器人、語(yǔ)音識別(ASR)等,因此,東進(jìn)想在生物特征識別技術(shù)的應用領(lǐng)域做一些探索。
為什么生物特征識別技術(shù)近幾年特別火呢,我認為有三個(gè)原因,第一是技術(shù)的進(jìn)步所帶來(lái)的發(fā)展,第二是應用有強勁的需求,第三是大佬們的推波助瀾以及資本的熱捧。業(yè)內對生物特征識別也普遍持樂(lè )觀(guān)態(tài)度,這是權威的國際生物識別集團(International Biometric Group,IBG)在2014年做的《2007-2020全球生物識別技術(shù)行業(yè)市場(chǎng)規模與預測》,IBG預測,在2020年,全球生物識別技術(shù)行業(yè)的市場(chǎng)規模將達到250億美元。
生物特征識別技術(shù)涵蓋指紋、人臉、聲紋、瞳孔、掌紋以及靜脈紋,每種生物特征識別都有著(zhù)不一樣的技術(shù)特性和應用場(chǎng)景,在此我們可以簡(jiǎn)單比較一下聲紋和人臉之間的區別,人臉識別是基于人的生理特征,而聲紋識別不僅基于人的生理特征,也是基于人的行為特征。人臉在人的一生中是相對有規律的自然變化,而聲音不僅有相對規律的自然變化,也與人后天的生活環(huán)境、文化環(huán)境相關(guān),具有極強的自然屬性和文化屬性,不易被仿冒,或者說(shuō)仿冒的難度比較高。因此,相對人臉識別,聲紋識識別更能夠應用到遠程身份認證領(lǐng)域,聲紋識別如果能和現有的基于互聯(lián)網(wǎng)的客戶(hù)服務(wù)結合,會(huì )有更好的應用前景和市場(chǎng)前景。
因此,國際生物識別集團在《2007-2020全球生物識別技術(shù)行業(yè)細分市場(chǎng)規模與預測》中預測,在2020年的250億美元市場(chǎng)中,指紋排第一,130億美元,聲紋排第二,為56億美元,人臉排第三,為24億美元,顯然,相比人臉,IBG對聲紋識別更樂(lè )觀(guān)一些。
需要講清楚的一點(diǎn)是,聲紋識別和語(yǔ)音識別是不一樣的,聲紋識別是基于發(fā)音特征,關(guān)注的是你是誰(shuí),語(yǔ)音識別基于語(yǔ)義特征,關(guān)注的是你說(shuō)了什么,還有一點(diǎn)是聲紋識別有兩類(lèi),一類(lèi)是確認,即要證明你是你,一類(lèi)是是辨認,就是在一堆人中找出你。
面向確認的聲紋識別應用已經(jīng)達到了實(shí)際商用水平,如司法行業(yè)的司法矯正中就用到聲紋識別,大家可能不知道,聲紋識別早在2010年前后就開(kāi)始在司法行業(yè)中得到應用了。基本流程是這樣的,假釋人員首先在司法部門(mén)進(jìn)行司法宣告,留下語(yǔ)音,然后給他一個(gè)具有LBS功能的手機,在監外服刑期間,司法矯正系統會(huì )定期對矯正對象所持手機進(jìn)行定位,以判斷對象是否在規定的地理位置,同時(shí),利用東進(jìn)Keygoe多媒體交換機對手機進(jìn)行外呼,通過(guò)IVR引導矯正對象進(jìn)行聲紋比對,以判斷矯正對象和手機是否分離。目前,這種面向確認的聲紋識別技術(shù)在司法行業(yè)已經(jīng)達到較高的商用成熟度。還有一個(gè)應用就是手機的聲紋鎖,用聲紋來(lái)打開(kāi)你的手機,這種的應用的商用化程度也非常高。
而面向辨認的聲紋識別技術(shù),我個(gè)人認為其商業(yè)化還有一段路要走,一個(gè)例子是汽車(chē)行業(yè)的用戶(hù)滿(mǎn)意度調查。汽車(chē)4S店將大量的客戶(hù)訪(fǎng)問(wèn)電話(huà)的錄音文件交到汽車(chē)廠(chǎng)商,為防止4S店作弊,汽車(chē)廠(chǎng)商需要將被仿冒的電話(huà)給找出來(lái),這就需要通過(guò)聲紋識別技術(shù)來(lái)進(jìn)行,但從目前反饋的情況來(lái)看,效果并不理想,這倒不是技術(shù)問(wèn)題,而是和應用場(chǎng)景相關(guān),因為不可能對汽車(chē)廠(chǎng)商的客戶(hù)進(jìn)行語(yǔ)音預留。
我們人類(lèi)對語(yǔ)音的說(shuō)話(huà)人鑒別是我們人類(lèi)在幾百萬(wàn)年的進(jìn)化過(guò)程中習得而來(lái),與生俱來(lái),而通過(guò)機器進(jìn)行說(shuō)話(huà)人識別跟人類(lèi)大腦的識別是不一樣的。在這個(gè)圖中,上面兩個(gè)是聲音的波形圖,即聲音振幅隨時(shí)間變化的曲線(xiàn),下面兩個(gè)是語(yǔ)譜圖,即聲音在不同頻段的能量值大小隨時(shí)間的變化曲線(xiàn),上世紀三四十年代,美國的Bell實(shí)驗室的勞倫斯·科斯塔通過(guò)觀(guān)察語(yǔ)譜圖第一次提出了"聲紋"的概念;到四十年代至七十年代,同樣是Bell實(shí)驗室的S.Pruzansky提出了基于統計學(xué)原理的聲紋識別理論,系統地發(fā)展了聲紋識別理論,理論體系得以初步建立,這一階段的研究主要集中在特征參數的選擇、提取上,相繼提出了線(xiàn)性預測倒譜系數、共振峰參數等特征參數;在上世紀七十年代至九十年代,聲紋識別技術(shù)發(fā)展迅速,參數提取上提出了應用較為成熟的梅爾頻率倒譜系數(MFCC)模式匹配,并相繼出現了矢量量化技術(shù)(VQ)、動(dòng)態(tài)時(shí)間規整(DTW)、隱馬爾科夫模型(HMM)等模式匹配模型;九十年代至今,開(kāi)始步入實(shí)際應用階段,工作重點(diǎn)是提高聲紋識別系統的可靠性和實(shí)用性。
衡量一個(gè)聲紋識別效果的重要參數是錯誤接受率和錯誤拒絕率,在這個(gè)曲線(xiàn)中,錯誤接受率和錯誤拒絕率是一個(gè)矛盾曲線(xiàn),即兩者不可兼得,因此,業(yè)內提出來(lái)等錯率,目前的聲紋識別技術(shù)在理想的情況下等錯率可以做到低于0.5%,即在1000個(gè)的聲紋比對中,僅有不到5個(gè)的錯誤接受率和錯誤拒絕率。
聲紋識別就目前的應用來(lái)說(shuō),主要有三個(gè)技術(shù)難點(diǎn)。
一個(gè)技術(shù)難點(diǎn)就是跨信道。這是在聲紋識別中,學(xué)習訓練通道和識別通道在相同和不同情況下,對等錯率的影響,藍色曲線(xiàn)的同一信道曲線(xiàn),紅色曲線(xiàn)是跨信道曲線(xiàn),可以看到,跨信道的等錯率幾乎到了20%,那么在實(shí)際應用中,我們該怎么去解決這問(wèn)題呢,特別是技術(shù)水平相對穩定的情況下該怎么解決這個(gè)問(wèn)題?
我們的做法是結合應用場(chǎng)景,盡量使訓練學(xué)習通道和識別通道都用同一個(gè)信道,盡量避免跨信道。這是一個(gè)駕校管理系統方案,為防止駕校侵占學(xué)員的學(xué)時(shí),需要對學(xué)員進(jìn)行身份認證,現在的認證方法是學(xué)員IC卡讀取和指紋識別,學(xué)員通過(guò)教練車(chē)載終端進(jìn)行登錄,現在將聲紋識別技術(shù)引入進(jìn)來(lái),如果學(xué)員報名時(shí)在報名處通過(guò)寬帶接入網(wǎng)進(jìn)行聲紋預留,在教練車(chē)上通過(guò)車(chē)載終端和3G網(wǎng)絡(luò )通道進(jìn)行識別時(shí),就會(huì )影響實(shí)際的識別效果,我們提出的解決方案是,在報名時(shí),學(xué)員下載APP后就通過(guò)移動(dòng)寬帶網(wǎng)絡(luò )進(jìn)行語(yǔ)音預留,在教練車(chē)上,車(chē)載終端僅下發(fā)動(dòng)態(tài)碼,學(xué)員仍然通過(guò)自己的手機利用移動(dòng)寬帶網(wǎng)絡(luò )通道進(jìn)行識別,這樣就能顯著(zhù)提高識別率。
第二個(gè)技術(shù)難點(diǎn)是錯誤識別。做到百分之百的正確識別是不現實(shí)的,但我們可以利用等錯率曲線(xiàn),根據業(yè)務(wù)應用場(chǎng)景,通過(guò)參數配置,有針對性地提高或降低錯誤拒絕率或錯誤接受率,使之符合實(shí)際的應用場(chǎng)景。舉個(gè)例子,如果安全性較高的應用場(chǎng)景,如大額轉賬,我就將參數配置在這個(gè)區域,即較低的錯誤接受率和較高的錯誤拒絕率,犧牲便利性突出安全性,相信客戶(hù)在進(jìn)行大額轉賬時(shí),應該是能夠忍受一定的不方便而獲得較高的安全性。當聲紋識別用于手機解鎖時(shí),我們可以調整參數,使之工作低錯誤拒絕率和高錯誤接受率這個(gè)區域,提供較好的方便性,因為手機在大多數情況下都在我們身邊,誰(shuí)也不會(huì )沒(méi)事就拿著(zhù)手機找人家闖入。
第三技術(shù)難點(diǎn)就是假體攻擊。就指紋的假體攻擊,據說(shuō)淘寶上賣(mài)一個(gè)指紋只需要十幾塊錢(qián),今年315晚會(huì )上,針對人臉識別的假體攻擊也讓人臉識別火了一把。就聲紋識別而言,常見(jiàn)的假體攻擊就是錄音以及錄音的拼接,從理論上講,通過(guò)錄音文件進(jìn)行闖入是存在可能性的。對錄音及錄音拼接,我們的解決方案是動(dòng)態(tài)碼,即下發(fā)一個(gè)隨機的8位數的數字,通過(guò)對這個(gè)動(dòng)態(tài)碼的識別來(lái)進(jìn)行身份驗證,提高了系統識別率和安全率,這也是我們?yōu)橹袊ㄔO銀行的手機銀行的遠程身份認證提供的解決方案。
中國建設銀行的手機銀行業(yè)務(wù),其遠程身份認證的大致流程是這樣的,大家請看這個(gè)圖,首先是手機客戶(hù)端發(fā)起驗證請求, 銀行業(yè)務(wù)系統調用東進(jìn)的聲紋驗證機接口獲取ID和文本,以獲得隨機產(chǎn)生的ID和文本,然后將文本解碼并發(fā)送給手機銀行客戶(hù)端,手機銀行客戶(hù)端讀出文本,并將錄音發(fā)給銀行業(yè)務(wù)系統,銀行業(yè)務(wù)系統收到錄音后調用聲紋驗證機接口上傳用戶(hù)語(yǔ)音,聲紋驗證機返回聲紋驗證結果給銀行業(yè)務(wù)系統,銀行業(yè)務(wù)系統將驗證成功或失敗接口發(fā)給手機銀行客戶(hù)端。這就是我們現在向中國建設銀行提供的面向移動(dòng)互聯(lián)網(wǎng)的聲紋識別+動(dòng)態(tài)口令的遠程身份認證解決方案。
面向金融和支付領(lǐng)域的聲紋識別技術(shù)應用,目前一個(gè)行業(yè)問(wèn)題就是,能否將聲紋識別正式作為遠程身份認證的一個(gè)正式手段納入到相應的業(yè)務(wù)環(huán)節,不過(guò)有兩個(gè)動(dòng)向使我們對此很樂(lè )觀(guān)。一個(gè)是,去年中國人民銀行發(fā)布《關(guān)于推動(dòng)移動(dòng)金融技術(shù)創(chuàng )新健康發(fā)展的指導意見(jiàn)》中,要求銀行和清算機構提供手機等移動(dòng)金融服務(wù)時(shí),應使用可靠的多因素身份認證方式,多因素身份認證中就有聲紋、人臉等選項;另外一個(gè)動(dòng)向是,中國人民銀行金融標準委員會(huì )正在組織起草《手機銀行中基于聲紋識別的增強安全應用技術(shù)規范》,目前正在征求意見(jiàn)階段,預計不久的將來(lái),該規范將正式作為中國金融行業(yè)的一個(gè)正式標準,指導金融行業(yè)在聲紋識別技術(shù)的規范應用,相信能促進(jìn)聲紋識別市場(chǎng)的良性發(fā)展。
最后做一個(gè)廣告,這是東進(jìn)FV-1000聲紋驗證機,是東進(jìn)硬件設備上的研發(fā)優(yōu)勢和清華大學(xué)在底層算法科研優(yōu)勢結合的一個(gè)有益嘗試。就設備本身而言,行業(yè)內的朋友都知道,東進(jìn)在硬件設備的研發(fā)設計和生產(chǎn)制造上擁有超過(guò)20的創(chuàng )新歷史,設備以高可靠、高穩定、高性能和高靈活度的特點(diǎn)獲得了產(chǎn)業(yè)鏈上各個(gè)環(huán)節的高度認可。目前這臺FV-1000所搭載的聲紋識別算法不僅能通過(guò)靈活的參數配置來(lái)適應不同的應用場(chǎng)景,還具有防錄音和防錄音拼接功能,而且能夠進(jìn)行自我學(xué)習,適應人類(lèi)聲音的自然變化。另外,從聲紋識別技術(shù)應用的系統架構上看,東進(jìn)FV-1000聲紋驗證機處在系統架構較低層的接入層和支持層,并對上層應用提供應用開(kāi)發(fā)接口,應用開(kāi)發(fā)接口完全基于Web Service,這也體現了東進(jìn)一貫堅持的產(chǎn)業(yè)鏈合作的經(jīng)營(yíng)理念,東進(jìn)愿意與合作伙伴一起,共同打造基于(移動(dòng))互聯(lián)網(wǎng)的遠程身份認證解決方案,探索生物特征識別技術(shù)在更廣泛行業(yè)中的應用。
總而言之,技術(shù)的進(jìn)步和應用需求使我們進(jìn)入了生物特征識別產(chǎn)業(yè)高速發(fā)展的增長(cháng)期,而要獲得持續的市場(chǎng)增長(cháng),就需要我們在技術(shù)及其應用上進(jìn)一步去探索與突破,除此之外,生物識別技術(shù)的應用還存在一些安全和隱私問(wèn)題,除了技術(shù)需要進(jìn)一步提升外,行業(yè)還要制定相關(guān)的標準和規范,甚至國家在法律層面還需要制定相應的法律和法規,以明晰可能存在的風(fēng)險,讓我們在基礎研究、技術(shù)開(kāi)發(fā)、行業(yè)應用等方面共同努力,以更好的產(chǎn)品和服務(wù)迎接生物特征識別市場(chǎng)收獲季節的到來(lái)。
謝謝大家!