• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 技術(shù) > 技術(shù)文摘 > 聲紋識別 聽(tīng)聲辨人

    聲紋識別 聽(tīng)聲辨人

    2001-08-23 00:00:00   作者:   來(lái)源:   評論:0 點(diǎn)擊:


     

      近年來(lái),在生物識別技術(shù)領(lǐng)域中,聲紋識別技術(shù)以其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢受到世人矚目,并日益成為人們日常生活和工作中重要且普及的安全驗證方式。

      聲紋識別屬于生物識別技術(shù)的一種,是一項根據語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征的語(yǔ)音參數,自動(dòng)識別說(shuō)話(huà)人身份的技術(shù)。與語(yǔ)音識別不同的是,聲紋識別利用的是語(yǔ)音信號中的說(shuō)話(huà)人信息,而不考慮語(yǔ)音中的字詞意思,它強調說(shuō)話(huà)人的個(gè)性;而語(yǔ)音識別的目的是識別出語(yǔ)音信號中的言語(yǔ)內容,并不考慮說(shuō)話(huà)人是誰(shuí),它強調共性。

    歷史與現狀

      對聲紋識別的研究始于20世紀30年代。早期的工作主要集中在人耳聽(tīng)辨實(shí)驗和探討聽(tīng)音識別的可能性方面。隨著(zhù)研究手段和工具的改進(jìn),研究工作逐漸脫離了單純的人耳聽(tīng)辨。Bell實(shí)驗室的L.G. Kesta目視觀(guān)察語(yǔ)譜圖進(jìn)行識別,提出了“聲紋(voiceprint)”的概念。之后,電子技術(shù)和計算機技術(shù)的發(fā)展,使通過(guò)機器自動(dòng)識別人的聲音成為可能。Bell實(shí)驗室的S. Pruzansky提出了基于模式匹配和概率統計方差分析的聲紋識別方法,而引起信號處理領(lǐng)域許多學(xué)者的注意,形成了聲紋識別研究的一個(gè)高潮,其間的工作主要集中在各種識別參數的提取、選擇和實(shí)驗上,并將倒譜和線(xiàn)性預測分析等方法應用于聲紋識別。

      70年代末至今,聲紋識別的研究重點(diǎn)轉向對各種聲學(xué)參數的線(xiàn)性或非線(xiàn)性處理以及新的模式匹配方法上,如動(dòng)態(tài)時(shí)間規整、主成分分析、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò )和多特征組合等技術(shù)。如今,聲紋識別技術(shù)已逐漸走入實(shí)際應用,AT&T應用聲紋識別技術(shù)研制出了智慧卡(smart card),已應用于自動(dòng)提款機。歐洲電信聯(lián)盟在電信與金融結合領(lǐng)域應用聲紋識別技術(shù),于1998年完成了CAVE (Caller Verification in Banking and Telecommunication) 計劃,并于同年又啟動(dòng)了PICASSO(Pioneering Call Authentication for Secure Service Operation) 計劃,在電信網(wǎng)上完成了聲紋識別。同時(shí),MotorolaVisa等公司成立了V-commerce聯(lián)盟,希望實(shí)現電子交易的自助化,其中通過(guò)聲音確定人的身份是此項目的重要組成部分。其他的一些商用系統還包括:ITT公司的SpeakerKeyKeyware公司的VoiceGuardianT-NETIX公司的SpeakEZ等。

      國內開(kāi)展聲紋識別研究比較早的機構有北京大學(xué)、中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)等,并先后得到了國家自然科學(xué)基金重大和重點(diǎn)項目、攀登計劃等基金的支持,取得了豐碩的研究成果。

    說(shuō)話(huà)人識別系統的典型結構圖

    物理基礎

      語(yǔ)音是由發(fā)聲器官運動(dòng)產(chǎn)生的。發(fā)聲器官包括喉、聲道和嘴。氣流通過(guò)喉中的聲門(mén),引起聲帶的周期性振動(dòng),形成周期性的脈沖串并進(jìn)入聲道,周期性脈沖的周期稱(chēng)為基音周期。氣流從喉向上經(jīng)過(guò)口腔或鼻腔后從嘴或鼻孔向外輻射,其間的傳輸通道稱(chēng)為聲道。聲道是具有某種諧振特性的腔體,當氣流通過(guò)時(shí),輸出的氣流頻率特性,即聲門(mén)脈沖串的特性,取決于聲道的特性。嘴的作用是完成氣流的向外輻射,嘴張開(kāi)時(shí)的形狀對語(yǔ)音頻譜有影響,但較聲道次之。

      發(fā)聲的器官和過(guò)程確定了語(yǔ)音中特定說(shuō)話(huà)人信息的形式,其中聲道的形狀是最重要的生理因素。另外,發(fā)聲的習慣,包括發(fā)聲速度、韻律和口音構成了語(yǔ)音中特定說(shuō)話(huà)人信息的后天行為因素。語(yǔ)音中的特定說(shuō)話(huà)人信息構成了聲紋識別的物理基礎。

    技術(shù)原理

      基于不同的應用環(huán)境,聲紋識別分為說(shuō)話(huà)人辨識和說(shuō)話(huà)人確認。說(shuō)話(huà)人辨識是指識別說(shuō)話(huà)人是否已經(jīng)注冊,是哪一個(gè)注冊人;說(shuō)話(huà)人確認是指識別說(shuō)話(huà)人的身份與其聲明的是否一致。

      用戶(hù)在使用聲紋識別系統時(shí),需要向系統提供一段語(yǔ)音,根據發(fā)音材料,可分為文本有關(guān)(text-dependent)和文本無(wú)關(guān)(text-independent)兩種。與文本有關(guān)的識別系統要求用戶(hù)按照規定的內容發(fā)音,并根據特定的發(fā)音內容建立精確的模型,從而達到較好的識別效果,但系統需要用戶(hù)配合,如果用戶(hù)的發(fā)音與規定的內容不符合,則無(wú)法正確識別該用戶(hù)。而與文本無(wú)關(guān)的識別系統則不規定說(shuō)話(huà)人的發(fā)音內容,因而要建立精確的模型較為困難,識別效果較差。另外,與其他生物識別技術(shù)類(lèi)似,若考慮待識別的說(shuō)話(huà)人是否在注冊的說(shuō)話(huà)人集合內,則說(shuō)話(huà)人辨識分為開(kāi)集(open-set)辨識和閉集(close-set)辨識,顯而易見(jiàn),閉集辨識的結果要好于開(kāi)集辨識,但開(kāi)集辨識與實(shí)際情況更為一致。

      無(wú)論是與文本有關(guān)還是無(wú)關(guān),系統都面臨一個(gè)共同的問(wèn)題,即無(wú)法區分一個(gè)發(fā)音是現場(chǎng)發(fā)音還是錄音回放。但文本提示的說(shuō)話(huà)人識別系統可以有效地防止這種情況發(fā)生。具體實(shí)現時(shí),可采用隨機或其他方法來(lái)生成提示文本,如隨機的數字串,以使假冒者無(wú)法事先錄音。

      文本有關(guān)聲紋識別系統的一種典型結構如圖所示,它包括訓練和識別兩個(gè)階段。訓練時(shí),每個(gè)說(shuō)話(huà)人重復一定次數的發(fā)音,然后檢測并分析每次發(fā)聲的語(yǔ)音段,以提取特征,并利用動(dòng)態(tài)時(shí)間規整技術(shù),在時(shí)間上對齊特征序列且多次平均,形成每個(gè)說(shuō)話(huà)人的參考模板。識別時(shí),對語(yǔ)音信號進(jìn)行特征分析,然后計算與參考模板的距離,選取其中的最小值作為結果輸出。說(shuō)話(huà)人確認系統則是計算待識特征與聲明說(shuō)話(huà)人模板的距離,并與設定的閾值比較,若高于閾值則拒絕判決,低于閾值則接受判決。

      聲紋識別系統主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表現說(shuō)話(huà)人身份的有效且穩定可靠的特征,模式匹配的任務(wù)是對訓練和識別時(shí)的特征模式做相似性匹配。

    1.特征提取

      聲紋識別系統中的特征檢測即提取語(yǔ)音信號中表征人的基本特征,此特征應能有效地區分不同的說(shuō)話(huà)人,且對同一說(shuō)話(huà)人的變化保持相對穩定。考慮到特征的可量化性、訓練樣本的數量和系統性能的評價(jià)問(wèn)題,目前的聲紋識別系統主要依靠較低層次的聲學(xué)特征進(jìn)行識別。說(shuō)話(huà)人特征大體可歸為下述幾類(lèi):

      譜包絡(luò )參數語(yǔ)音信息通過(guò)濾波器組輸出,以合適的速率對濾波器輸出抽樣,并將它們作為聲紋識別特征。

      基音輪廓、共振峰頻率帶寬及其軌跡 這類(lèi)特征是基于發(fā)聲器官如聲門(mén)、聲道和鼻腔的生理結構而提取的參數。

      線(xiàn)性預測系數使用線(xiàn)性預測系數是語(yǔ)音信號處理中的一次飛躍,以線(xiàn)性預測導出的各種參數,如線(xiàn)性預測系數、自相關(guān)系數、反射系數、對數面積比、線(xiàn)性預測殘差及其組合等參數,作為識別特征,可以得到較好的效果。主要原因是線(xiàn)性預測與聲道參數模型是相符合的。

      反映聽(tīng)覺(jué)特性的參數模擬人耳對聲音頻率感知的特性而提出了多種參數,如美倒譜系數、感知線(xiàn)性預測等。

      此外,人們還通過(guò)對不同特征參量的組合來(lái)提高實(shí)際系統的性能,當各組合參量間相關(guān)性不大時(shí),會(huì )有較好的效果,因為它們分別反映了語(yǔ)音信號的不同特征。

    2.模式匹配

      目前針對各種特征而提出的模式匹配方法的研究越來(lái)越深入。這些方法大體可歸為下述幾類(lèi):

    • 概率統計方法

      語(yǔ)音中說(shuō)話(huà)人信息在短時(shí)內較為平穩,通過(guò)對穩態(tài)特征如基音、聲門(mén)增益、低階反射系數的統計分析,可以利用均值、方差等統計量和概率密度函數進(jìn)行分類(lèi)判決。其優(yōu)點(diǎn)是不用對特征參量在時(shí)域上進(jìn)行規整,比較適合文本無(wú)關(guān)的說(shuō)話(huà)人識別。

    • 動(dòng)態(tài)時(shí)間規整方法

      說(shuō)話(huà)人信息不僅有穩定因素(發(fā)聲器官的結構和發(fā)聲習慣),而且有時(shí)變因素(語(yǔ)速、語(yǔ)調、重音和韻律)。將識別模板與參考模板進(jìn)行時(shí)間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規整DTW

    • 矢量量化方法

      矢量量化最早是基于聚類(lèi)分析的數據壓縮編碼技術(shù)。Helms首次將其用于聲紋識別,把每個(gè)人的特定文本編成碼本,識別時(shí)將測試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標準。Bell實(shí)驗室的RosenbergSoongVQ進(jìn)行了孤立數字文本的聲紋識別研究。這種方法的識別精度較高,且判斷速度快。

    • 隱馬爾可夫模型方法

      隱馬爾可夫模型是一種基于轉移概率和傳輸概率的隨機模型,最早在CMUIBM被用于語(yǔ)音識別。它把語(yǔ)音看成由可觀(guān)察到的符號序列組成的隨機過(guò)程,符號序列則是發(fā)聲系統狀態(tài)序列的輸出。在使用HMM識別時(shí),為每個(gè)說(shuō)話(huà)人建立發(fā)聲模型,通過(guò)訓練得到狀態(tài)轉移概率矩陣和符號輸出概率矩陣。識別時(shí)計算未知語(yǔ)音在狀態(tài)轉移過(guò)程中的最大概率,根據最大概率對應的模型進(jìn)行判決。HMM不需要時(shí)間規整,可節約判決時(shí)的計算時(shí)間和存儲量,在目前被廣泛應用。缺點(diǎn)是訓練時(shí)計算量較大。

    • 人工神經(jīng)網(wǎng)絡(luò )方法

      人工神經(jīng)網(wǎng)絡(luò )在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結構的網(wǎng)絡(luò )模型,具有自組織和自學(xué)習能力、很強的復雜分類(lèi)邊界區分能力以及對不完全信息的魯棒性,其性能近似理想的分類(lèi)器。其缺點(diǎn)是訓練時(shí)間長(cháng),動(dòng)態(tài)時(shí)間規整能力弱,網(wǎng)絡(luò )規模隨說(shuō)話(huà)人數目增加時(shí)可能大到難以訓練的程度。

      把以上分類(lèi)方法與不同特征進(jìn)行有機組合可顯著(zhù)提高聲紋識別的性能,如NTT實(shí)驗室的T. MatsuiS. Furui使用倒譜、差分倒譜、基音和差分基音,采用VQHMM混和的方法得到99.3%的說(shuō)話(huà)人確認率。

      對于說(shuō)話(huà)人確認系統,表征其性能的最重要的兩個(gè)參量是錯誤拒絕率和錯誤接受率。前者是拒絕真實(shí)的說(shuō)話(huà)人而造成的錯誤,后者是接受假冒者而造成的錯誤,二者與閾值的設定相關(guān)。說(shuō)話(huà)人確認系統的錯誤率與用戶(hù)數目無(wú)關(guān),而說(shuō)話(huà)人辨認系統的性能與用戶(hù)數目有關(guān),并隨著(zhù)用戶(hù)數目的增加,系統的性能會(huì )不斷下降。

      總的說(shuō)來(lái),一個(gè)成功的說(shuō)話(huà)人識別系統應該做到以下幾點(diǎn):

    • 能夠有效地區分不同的說(shuō)話(huà)人,但又能在同一說(shuō)話(huà)人語(yǔ)音發(fā)生變化時(shí)保持相對的穩定,如感冒等情況。
    • 不易被他人模仿或能夠較好地解決被他人模仿問(wèn)題。
    • 在聲學(xué)環(huán)境變化時(shí)能夠保持一定的穩定性,即抗噪聲性能要好

    聲紋識別應用前景

      與其他生物識別技術(shù),諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會(huì )遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:

    • 用戶(hù)接受程度高,由于不涉及隱私問(wèn)題,用戶(hù)無(wú)任何心理障礙。
    • 利用語(yǔ)音進(jìn)行身份識別可能是最自然和最經(jīng)濟的方法之一。聲音輸入設備造價(jià)低廉,甚至無(wú)費用(電話(huà)),而其他生物識別技術(shù)的輸入設備往往造價(jià)昂貴。
    • 在基于電信網(wǎng)絡(luò )的身份識別應用中,如電話(huà)銀行、電話(huà)炒股、電子購物等,與其他生物識別技術(shù)相比,聲紋識別更為擅長(cháng),得天獨厚。

      由于與其他生物識別技術(shù)相比,聲紋識別具有更為簡(jiǎn)便、準確、經(jīng)濟及可擴展性良好等眾多優(yōu)勢,可廣泛應用于安全驗證、控制等各方面,特別是基于電信網(wǎng)絡(luò )的身份識別。

      比爾·蓋茨認為:“以人類(lèi)生物特征(指紋、語(yǔ)音、臉像等)進(jìn)行身份驗證的生物識別技術(shù),在今后數年內將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命。”

      在世界范圍內,聲紋識別技術(shù)正廣泛應用于諸多領(lǐng)域。截止到去年初,聲紋識別產(chǎn)品的市場(chǎng)占有率為15.8%,僅次于指紋識別和掌形識別。目前,我國市場(chǎng)尚屬啟動(dòng)階段,其發(fā)展空間更為廣闊,在金融、證券、社保、公安、軍隊及其他民用安全認證等行業(yè)和部門(mén)有著(zhù)廣泛的需求。

    1.用于銀行、證券系統

      隨著(zhù)電話(huà)銀行、遠程炒股等業(yè)務(wù)的不斷增加,這些業(yè)務(wù)對用戶(hù)所做的身份認證只是采用密碼方式,其安全性令人擔憂(yōu)。如果采用說(shuō)話(huà)人確認技術(shù)并結合原來(lái)的密碼,可安全有效地實(shí)現用戶(hù)身份的確認,這對用戶(hù)來(lái)說(shuō)并沒(méi)有增加任何負擔。

    2.為網(wǎng)絡(luò )安全出力

      現在人們越來(lái)越多地依賴(lài)于口令和密碼,隨著(zhù)不同場(chǎng)合的頻繁應用其缺陷越發(fā)明顯。在聲紋識別過(guò)程中,每次發(fā)音都由隨機產(chǎn)生的提示文本來(lái)控制,可有效地防止復制和剽竊,可以說(shuō),聲紋識別技術(shù)與其他生物識別技術(shù)相比有著(zhù)明顯的優(yōu)勢,可以為日益發(fā)展的電子購物、電子商務(wù)、國際貿易保駕護航,且操作方便、簡(jiǎn)潔,很容易為廣大計算機使用者接受。

    3.為破案立功

      對于各種電話(huà)勒索、綁架、電話(huà)人身攻擊等案件,聲紋識別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對嫌疑人的查證。在美國,有關(guān)機構還利用這一技術(shù)來(lái)判斷監外執行人員是否在其寓所中。

    4.在軍隊安全系統中的應用

      聲紋識別技術(shù)可以辨認出電話(huà)交談過(guò)程中是否有關(guān)鍵說(shuō)話(huà)人出現,繼而對交談的內容進(jìn)行處理。另外,在通過(guò)電話(huà)發(fā)出軍事指令時(shí),可以對發(fā)出命令的人的身份進(jìn)行確認。

     

    《計算機世界》2001/08/23

    相關(guān)熱詞搜索:

    上一篇:透視浙江省電力的IT推進(jìn)

    下一篇:呼叫中心解決方案綜述

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 邯郸县| 彭山县| 三原县| 湾仔区| 文化| 普兰县| 罗平县| 蚌埠市| 柞水县| 晋州市| 尤溪县| 雷州市| 洛川县| 西乌珠穆沁旗| 凤冈县| 富川| 环江| 松潘县| 隆昌县| 遵义县| 德江县| 增城市| 广汉市| 梓潼县| 桦甸市| 佛学| 墨玉县| 剑河县| 新郑市| 岚皋县| 牙克石市| 南岸区| 密云县| 中牟县| 建水县| 禹城市| 河间市| 潜山县| 西安市| 武宁县| 泰州市| http://444 http://444 http://444 http://444 http://444 http://444