基于DTW的編碼域說話人識(shí)別研究人民分析

李榕健 2010/10/18

　　說話人識(shí)別又被稱為話者識(shí)別，是指通過對說話人語音信號的分析處理，自動(dòng)確認(rèn)說話人是否在所記錄的話者集合中，以及進(jìn)一步確認(rèn)說話人的身份。說話人識(shí)別的基本原理如圖1所示。

　　按照語音的內(nèi)容，說話人識(shí)別可以分為文本無關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無關(guān)的識(shí)別系統(tǒng)不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對困難，但用戶使用方便。與文本有關(guān)的說話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音，因此可以達(dá)到較好的識(shí)別效果。

　　隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，通過Internet網(wǎng)絡(luò)傳遞語音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速，已經(jīng)成為人們?nèi)粘＝涣鞯闹匾侄�，越來越多的用戶拋棄傳統(tǒng)的通信方式，通過計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語音交流。由于VoIP工作方式的特點(diǎn)，語音在傳輸中經(jīng)過了語音編譯碼處理，VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對解碼參數(shù)和壓縮碼流進(jìn)行說話人識(shí)別。

　　現(xiàn)有的針對編碼域說話人識(shí)別方法的研究主要集中在編碼域語音特征參數(shù)的提取上，香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息，并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒�。中國科學(xué)技術(shù)大學(xué)主要研究了針對AMR語音編碼的說話人識(shí)別。西北工業(yè)大學(xué)在說話人確認(rèn)中針對不同的語音編碼差異進(jìn)行了補(bǔ)償算法研究，并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說話人模型則主要采用在傳統(tǒng)說話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān)，在保證識(shí)別率的基礎(chǔ)上，其處理速度無法滿足VoIP環(huán)境下高速說話人識(shí)別的需求。

　　本文研究VoIP語音流中G.729編碼域的說話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說話人實(shí)時(shí)識(shí)別。

1.G.729編碼比特流中的特征提取

　　1.1 G.729編碼原理

　　ITU－T在1996年3月公布G.729編碼，其編碼速率為8 kb/s，采用了對結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測技術(shù)(CS-ACELP)，編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語音質(zhì)量和很低的延時(shí)，被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域，如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。

G.729的編碼過程如下：輸入8 kHz采樣的數(shù)字語音信號先經(jīng)過高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測分析，計(jì)算10階線性預(yù)測濾波器系數(shù)，然后把這些系數(shù)轉(zhuǎn)換為線譜對（LSP）參數(shù)，采用兩級矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí)，以原始語音與合成語音的誤差知覺加權(quán)最小為測度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)（自適應(yīng)碼本和固定碼本參數(shù)）每個(gè)子幀（5 ms，40個(gè)樣點(diǎn)）確定一次。

　　1.2 特征參數(shù)提取

直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù)，而在激勵(lì)參數(shù)的計(jì)算過程中經(jīng)過了LSP的插值平滑，所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對應(yīng)起來，要對解量化的LSP參數(shù)采用插值平滑。

　　本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。

　　參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語音增益參數(shù)，說話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2，結(jié)果發(fā)現(xiàn)，當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2)，識(shí)別性能得到了提高，所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2)，共7維。

2.動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法

　　動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想，解決了發(fā)音長短不一的模版匹配問題。
　　算法原理：假設(shè)測試語音和參考語音分別用R和T表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離D[T，R]，距離越小則相似度越高。具體實(shí)現(xiàn)中，先對語音進(jìn)行預(yù)處理，再把R和T按相同時(shí)間間隔劃分成幀系列：

　　然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

　　把測試模版的各個(gè)幀號n＝1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出，把參考模版的各幀號m＝1,…,M在縱軸上標(biāo)出，通過這些表示幀號的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)(n，m)表示測試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑，路徑通過的格點(diǎn)即為測試和參考模版中距離計(jì)算的幀號。

　　整個(gè)算法主要?dú)w結(jié)為計(jì)算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。

　　識(shí)別流程如圖3所示。

3.實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論

　　為測試上述識(shí)別性能，對其進(jìn)行了固定文本的說話人識(shí)別試驗(yàn)。試驗(yàn)中，采用電話信道863語料庫30個(gè)說話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語音壓縮幀，使用G.729聲碼器對原始語音文件進(jìn)行壓縮。使用每個(gè)說話人的一個(gè)文件訓(xùn)練成為模板。測試語音長度為10 s～60 s以5 s為間隔的共11個(gè)測試時(shí)間標(biāo)準(zhǔn)。這樣，模板庫中有30個(gè)模板，測試語音有270個(gè)，使用微機(jī)配置是：CPU Pentium 2.0 GHz，內(nèi)存512 MB。

　　在實(shí)驗(yàn)中，M和N取64，通過各模版間的匹配，確定了判決門限為0.3時(shí)，識(shí)別效果最佳。

　　為了對比DTW算法的識(shí)別性能，采用在傳統(tǒng)說話人識(shí)別中廣泛使用的GMM模型作為對比實(shí)驗(yàn)，其中GMM模型使用與DTW算法相同的編碼流特征。

　　圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語料庫的文本相關(guān)說話人的誤識(shí)率對比圖。橫坐標(biāo)代表的測試語音的時(shí)長，縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說話人識(shí)別中，基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型，且隨著測試語音的增長，優(yōu)勢更明顯。

　　為比較特征提取的時(shí)間性能和總的時(shí)間性能，實(shí)驗(yàn)條件如下：

　　(1)選擇的50個(gè)說話人的語音只進(jìn)行特征提取，測試語音長度總和在25 min左右；

　　(2)對測試語音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別，模板數(shù)為10個(gè)；

　　(3)微機(jī)配置為：CPU Pentium 2.0 GHz,內(nèi)存512 MB。

　　表1為特征提取時(shí)間比較結(jié)果，表2為說話人識(shí)別時(shí)間比較結(jié)果。

　　由實(shí)驗(yàn)結(jié)果可以看出，在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁)
時(shí)間都遠(yuǎn)小于解碼重建后的語音特征提取時(shí)間和識(shí)別時(shí)間，滿足實(shí)時(shí)說話人識(shí)別的需要。

　　在文本相關(guān)的說話人識(shí)別中，對比使用同樣G.729壓縮碼流特征的GMM模型， DTW方法的識(shí)別率和處理效率均高于GMM模型，能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。

共 2 頁：1 2

電子技術(shù)應(yīng)用

告別條碼掃描分析Vocollect語音技術(shù)行業(yè)應(yīng)用 2010-09-15

Nuance專訪：呼叫中心高端智能語音登陸中國 2010-09-14

淺析語音識(shí)別的移動(dòng)互聯(lián)網(wǎng)應(yīng)用 2010-08-18

電話銀行安全“新衛(wèi)士”——聲紋識(shí)別 2010-07-21

熱點(diǎn)專題: 語音合成TTS 語音識(shí)別ASR