聲紋識別(Voiceprint Recognition, VPR),也稱(chēng)為說(shuō)話(huà)人識別(Speaker Recognition),有兩類(lèi),即說(shuō)話(huà)人辨認(Speaker Identification)和說(shuō)話(huà)人確認(Speaker Verification)。前者用以判斷某段語(yǔ)音是若干人中的哪一個(gè)所說(shuō)的,是“多選一”問(wèn)題;而后者用以確認某段語(yǔ)音是否是指定的某個(gè)人所說(shuō)的,是“一對一判別”問(wèn)題。不同的任務(wù)和應用會(huì )使用不同的聲紋識別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認技術(shù),而銀行交易時(shí)則需要確認技術(shù)。不管是辨認還是確認,都需要先對說(shuō)話(huà)人的聲紋進(jìn)行建模,這就是所謂的“訓練”或“學(xué)習”過(guò)程。
從另一方面,聲紋識別有文本相關(guān)的(Text-Dependent)和文本無(wú)關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識別系統要求用戶(hù)按照規定的內容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識別時(shí)也必須按規定的內容發(fā)音,因此可以達到較好的識別效果,但系統需要用戶(hù)配合,如果用戶(hù)的發(fā)音與規定的內容不符合,則無(wú)法正確識別該用戶(hù)。而與文本無(wú)關(guān)的識別系統則不規定說(shuō)話(huà)人的發(fā)音內容,模型建立相對困難,但用戶(hù)使用方便,可應用范圍較寬。根據特定的任務(wù)和應用,兩種是有不同的應用范圍的。比如,在銀行交易時(shí)可以使用文本相關(guān)的聲紋識別,因為用戶(hù)自己進(jìn)行交易時(shí)是愿意配合的;而在刑偵或偵聽(tīng)應用中則無(wú)法使用文本相關(guān)的聲紋識別,因為你無(wú)法要求犯罪嫌疑人或被偵聽(tīng)的人配合。
在說(shuō)話(huà)人辨認方面,根據待識別的說(shuō)話(huà)人是否在注冊的說(shuō)話(huà)人集合內,說(shuō)話(huà)人辨認可以分為開(kāi)集(open-set)辨認和閉集(close-set)辨認。前者假定待識別說(shuō)話(huà)人可以在集合外,而后者假定待識別說(shuō)話(huà)人在集合內。顯然,開(kāi)集辨認需要有一個(gè)對集外說(shuō)話(huà)人的“拒識問(wèn)題”,而且閉集辨認的結果要好于開(kāi)集辨認結果。本質(zhì)上講,說(shuō)話(huà)人確認和開(kāi)集說(shuō)話(huà)人辨認都需要用到拒識技術(shù),為了達到很好的拒識效果,通常需要訓練一個(gè)假冒者模型或背景模型,以便拒識時(shí)有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個(gè)好的背景模型,往往需要通過(guò)預先采集好的若干說(shuō)話(huà)人的數據,通過(guò)某種算法去建立。
如果技術(shù)達到一定的水平,可以把文本相關(guān)識別并入文本無(wú)關(guān)識別,把閉集辨認并入開(kāi)集辨認,從而提供更為方便的使用方法。比如北京得意音通技術(shù)有限公司的“得意”身份證就是文本無(wú)關(guān)的、開(kāi)集方式的說(shuō)話(huà)人辨認和確認,“得意”身份證SDK還提供建立背景模型的工具。
CTI論壇報道