基于DTW的編碼域說(shuō)話(huà)人識別研究人民分析

李榕健 2010/10/18

  說(shuō)話(huà)人識別又被稱(chēng)為話(huà)者識別,是指通過(guò)對說(shuō)話(huà)人語(yǔ)音信號的分析處理,自動(dòng)確認說(shuō)話(huà)人是否在所記錄的話(huà)者集合中,以及進(jìn)一步確認說(shuō)話(huà)人的身份。說(shuō)話(huà)人識別的基本原理如圖1所示。


  按照語(yǔ)音的內容,說(shuō)話(huà)人識別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識別系統不規定說(shuō)話(huà)人的發(fā)音內容,模型建立相對困難,但用戶(hù)使用方便。與文本有關(guān)的說(shuō)話(huà)人識別系統要求用戶(hù)按照規定的內容發(fā)音,而識別時(shí)也必須按規定的內容發(fā)音,因此可以達到較好的識別效果。

  隨著(zhù)網(wǎng)絡(luò )技術(shù)的發(fā)展,通過(guò)Internet網(wǎng)絡(luò )傳遞語(yǔ)音的網(wǎng)絡(luò )電話(huà)VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們日常交流的重要手段,越來(lái)越多的用戶(hù)拋棄傳統的通信方式,通過(guò)計算機網(wǎng)絡(luò )等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn),語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理,VoIP設備端口同時(shí)要處理多路、海量的壓縮話(huà)音數據。所以VoIP說(shuō)話(huà)人識別技術(shù)主要研究的是如何高速、低復雜度地針對解碼參數和壓縮碼流進(jìn)行說(shuō)話(huà)人識別。

  現有的針對編碼域說(shuō)話(huà)人識別方法的研究主要集中在編碼域語(yǔ)音特征參數的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分數補償的方法。中國科學(xué)技術(shù)大學(xué)主要研究了針對AMR語(yǔ)音編碼的說(shuō)話(huà)人識別。西北工業(yè)大學(xué)在說(shuō)話(huà)人確認中針對不同的語(yǔ)音編碼差異進(jìn)行了補償算法研究,并且研究了直接在G.729編碼的比特流中提取參數的方法。說(shuō)話(huà)人模型則主要采用在傳統說(shuō)話(huà)人識別中應用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應用效果和混元數目密切相關(guān),在保證識別率的基礎上,其處理速度無(wú)法滿(mǎn)足VoIP環(huán)境下高速說(shuō)話(huà)人識別的需求。

  本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話(huà)人實(shí)時(shí)識別,將DTW識別算法成功應用在G.729編碼域的文本相關(guān)的說(shuō)話(huà)人實(shí)時(shí)識別。

1.G.729編碼比特流中的特征提取

  1.1 G.729編碼原理

  ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對結構代數碼激勵線(xiàn)性預測技術(shù)(CS-ACELP),編碼結果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語(yǔ)音質(zhì)量和很低的延時(shí),被廣泛地應用在數據通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統等。

G.729的編碼過(guò)程如下:輸入8 kHz采樣的數字語(yǔ)音信號先經(jīng)過(guò)高通濾波預處理,每10 ms幀作一次線(xiàn)性預測分析,計算10階線(xiàn)性預測濾波器系數,然后把這些系數轉換為線(xiàn)譜對(LSP)參數,采用兩級矢量量化技術(shù)進(jìn)行量化。自適應碼本搜索時(shí),以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權最小為測度進(jìn)行搜索。固定碼本采用代數碼本機構。激勵參數(自適應碼本和固定碼本參數)每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。

  1.2 特征參數提取

直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數。由于后段的說(shuō)話(huà)人識別系統還需要激勵參數,而在激勵參數的計算過(guò)程中經(jīng)過(guò)了LSP的插值平滑,所以為了使特征矢量中聲道和激勵參數能準確地對應起來(lái),要對解量化的LSP參數采用插值平滑。



  本文選擇G.729編碼幀中第一子幀的LSP(1)參數的反余弦LSF及由其轉換得到的LPC、LPCC參數作為聲道特征參數。

  參考文獻[1]發(fā)現識別特征加入G.729壓縮幀中的語(yǔ)音增益參數,說(shuō)話(huà)人識別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數GA1、GB1、GA2、GB2,結果發(fā)現,當采用了去除增益參數的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。

2.動(dòng)態(tài)時(shí)間規整(DTW)識別算法

  動(dòng)態(tài)時(shí)間規整DTW(Dynamic Time Warping)是把時(shí)間規整和距離測度計算結合起來(lái)的一種非線(xiàn)性規整技術(shù)。該算法基于動(dòng)態(tài)規劃思想,解決了發(fā)音長(cháng)短不一的模版匹配問(wèn)題。
  算法原理:假設測試語(yǔ)音和參考語(yǔ)音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現中,先對語(yǔ)音進(jìn)行預處理,再把R和T按相同時(shí)間間隔劃分成幀系列:


  然后采用動(dòng)態(tài)規劃進(jìn)行識別。如圖2所示。


  把測試模版的各個(gè)幀號n=1,…,N在一個(gè)二維直角坐標系的橫軸上標出,把參考模版的各幀號m=1,…,M在縱軸上標出,通過(guò)這些表示幀號的整數坐標畫(huà)出的橫縱線(xiàn)即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測試模版中某一幀與訓練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規劃算法可以歸結為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過(guò)的格點(diǎn)即為測試和參考模版中距離計算的幀號。


  整個(gè)算法主要歸結為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。

  識別流程如圖3所示。


3.實(shí)驗結果與性能分析及結論

  為測試上述識別性能,對其進(jìn)行了固定文本的說(shuō)話(huà)人識別試驗。試驗中,采用電話(huà)信道863語(yǔ)料庫30個(gè)說(shuō)話(huà)人共300個(gè)錄音文件,文件格式為16 bit線(xiàn)性PCM。為了模擬VoIP中語(yǔ)音壓縮幀,使用G.729聲碼器對原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話(huà)人的一個(gè)文件訓練成為模板。測試語(yǔ)音長(cháng)度為10 s~60 s以5 s為間隔的共11個(gè)測試時(shí)間標準。這樣,模板庫中有30個(gè)模板,測試語(yǔ)音有270個(gè),使用微機配置是:CPU Pentium 2.0 GHz,內存512 MB。

  在實(shí)驗中,M和N取64,通過(guò)各模版間的匹配,確定了判決門(mén)限為0.3時(shí),識別效果最佳。

  為了對比DTW算法的識別性能,采用在傳統說(shuō)話(huà)人識別中廣泛使用的GMM模型作為對比實(shí)驗,其中GMM模型使用與DTW算法相同的編碼流特征。

  圖4給出基于DTW識別方法與GMM模型(混元數64)識別G.729編碼方案863語(yǔ)料庫的文本相關(guān)說(shuō)話(huà)人的誤識率對比圖。橫坐標代表的測試語(yǔ)音的時(shí)長(cháng),縱坐標代表識別誤識率。由實(shí)驗結果可知在文本相關(guān)的說(shuō)話(huà)人識別中,基于DTW算法的識別率在絕大多數情況下高于GMM模型,且隨著(zhù)測試語(yǔ)音的增長(cháng),優(yōu)勢更明顯。


  為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗條件如下:

  (1)選擇的50個(gè)說(shuō)話(huà)人的語(yǔ)音只進(jìn)行特征提取,測試語(yǔ)音長(cháng)度總和在25 min左右;

  (2)對測試語(yǔ)音分別進(jìn)行解碼識別和編碼流的識別,模板數為10個(gè);

  (3)微機配置為:CPU Pentium 2.0 GHz,內存512 MB。

  表1為特征提取時(shí)間比較結果,表2為說(shuō)話(huà)人識別時(shí)間比較結果。


  由實(shí)驗結果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識別的(上接第121頁(yè))
時(shí)間都遠小于解碼重建后的語(yǔ)音特征提取時(shí)間和識別時(shí)間,滿(mǎn)足實(shí)時(shí)說(shuō)話(huà)人識別的需要。

  在文本相關(guān)的說(shuō)話(huà)人識別中,對比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識別率和處理效率均高于GMM模型,能夠實(shí)時(shí)應用于VoIP網(wǎng)絡(luò )監管中。
共 2 頁(yè):1 2 

電子技術(shù)應用



相關(guān)閱讀:
程蘭穎:語(yǔ)音識別技術(shù)引領(lǐng)呼叫中心全新客戶(hù)體驗 2010-09-30
告別條碼掃描 分析Vocollect語(yǔ)音技術(shù)行業(yè)應用 2010-09-15
Nuance專(zhuān)訪(fǎng):呼叫中心高端智能語(yǔ)音登陸中國 2010-09-14
淺析語(yǔ)音識別的移動(dòng)互聯(lián)網(wǎng)應用 2010-08-18
電話(huà)銀行安全“新衛士”——聲紋識別 2010-07-21

熱點(diǎn)專(zhuān)題:  語(yǔ)音合成TTS 語(yǔ)音識別ASR  

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 彭阳县| 宁明县| 织金县| 鹤山市| 宣武区| 天津市| 新安县| 本溪| 和田县| 连州市| 藁城市| 德保县| 金湖县| 恩施市| 伊宁县| 平阳县| 莱州市| 鄢陵县| 罗定市| 罗江县| 莎车县| 永和县| 多伦县| 长治县| 北票市| 广德县| 全南县| 固安县| 股票| 玉门市| 会东县| 高密市| 怀柔区| 平乐县| 吴江市| 旬邑县| 南靖县| 乌鲁木齐县| 平邑县| 平湖市| 古丈县| http://444 http://444 http://444 http://444 http://444 http://444