• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁 > 技術(shù) > 技術(shù)文摘 > 基于DTW的編碼域說話人識別研究人民分析

    基于DTW的編碼域說話人識別研究人民分析

    2010-10-18 00:00:00   作者:   來源:   評論:0 點(diǎn)擊:



      說話人識別又被稱為話者識別,是指通過對說話人語音信號的分析處理,自動(dòng)確認(rèn)說話人是否在所記錄的話者集合中,以及進(jìn)一步確認(rèn)說話人的身份。說話人識別的基本原理如圖1所示。
    '></center><br />
  隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過Internet網(wǎng)絡(luò)傳遞語音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄危絹碓蕉嗟挠脩魭仐墏鹘y(tǒng)的通信方式,通過計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語音交流。由于VoIP工作方式的特點(diǎn),語音在傳輸中經(jīng)過了語音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說話人識別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對解碼參數(shù)和壓縮碼流進(jìn)行說話人識別。<br />
  現(xiàn)有的針對編碼域說話人識別方法的研究主要集中在編碼域語音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒āV袊茖W(xué)技術(shù)大學(xué)主要研究了針對AMR語音編碼的說話人識別。西北工業(yè)大學(xué)在說話人確認(rèn)中針對不同的語音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說話人模型則主要采用在傳統(tǒng)說話人識別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識別率的基礎(chǔ)上,其處理速度無法滿足VoIP環(huán)境下高速說話人識別的需求。<br />
  本文研究VoIP語音流中G.729編碼域的說話人實(shí)時(shí)識別,將DTW識別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說話人實(shí)時(shí)識別。<br />
<b>1.G.729編碼比特流中的特征提取</b><br />
  <b>1.1 G.729編碼原理</b><br />
  ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。<br />
    G.729的編碼過程如下:輸入8 kHz采樣的數(shù)字語音信號先經(jīng)過高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測分析,計(jì)算10階線性預(yù)測濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(LSP)參數(shù),采用兩級矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語音與合成語音的誤差知覺加權(quán)最小為測度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。<br />
  <b>1.2 特征參數(shù)提取</b><br />
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說話人識別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過程中經(jīng)過了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對應(yīng)起來,要對解量化的LSP參數(shù)采用插值平滑。<br />
<center><img src=共 2 頁:1 2 

    電子技術(shù)應(yīng)用

    相關(guān)閱讀:

    分享到: 收藏

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 合肥市| 怀仁县| 太白县| 武邑县| 类乌齐县| 高雄市| 安陆市| 保定市| 阳江市| 长春市| 大悟县| 榆中县| 健康| 汕尾市| 嵊泗县| 长乐市| 鹰潭市| 苏尼特左旗| 嵊泗县| 崇礼县| 广南县| 江西省| 东港市| 偏关县| 岑巩县| 湖口县| 金阳县| 克山县| 石嘴山市| 获嘉县| 泽普县| 即墨市| 溆浦县| 江城| 冷水江市| 吴旗县| 东宁县| 宁海县| 常熟市| 阜新市| 通道| http://444 http://444 http://444 http://444 http://444 http://444