• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    遠場(chǎng)語(yǔ)音識別,性能提升 30%,百度怎么做到的?

    2019-12-10 10:52:35   作者:   來(lái)源:雷鋒網(wǎng)   評論:0  點(diǎn)擊:


      “今天我保守報一個(gè)30%以上的性能提升,很保守。未來(lái)這個(gè)技術(shù)會(huì )再次大幅刷新人們對遠場(chǎng)語(yǔ)音的認知。我自己的判斷是,三年以?xún)冗h場(chǎng)語(yǔ)音技術(shù)的識別率將達到近場(chǎng)識別率,因為有了這個(gè)技術(shù),遠場(chǎng)識別問(wèn)題基本可以得到解決,這是一個(gè)很大的跨學(xué)科創(chuàng )新。”
      講起百度最近在語(yǔ)音技術(shù)上的一項技術(shù)突破,百度語(yǔ)音首席架構師賈磊變得激昂澎湃起來(lái)。
      遠場(chǎng)語(yǔ)音識別,性能提升30%,百度怎么做到的?
      對于賈磊,大家不會(huì )陌生,他是互聯(lián)網(wǎng)圈子里首位全國勞動(dòng)模范(2015年),是一位“每天睜開(kāi)眼睛就是工作,走路坐車(chē)都在思考”的人物。
      賈磊向記者詳細講述了他們在遠場(chǎng)語(yǔ)音交互中的一項新的突破:基于復數卷積神經(jīng)網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模一體化端到端建模技術(shù)。(很長(cháng)的一段話(huà),關(guān)鍵詞:復數卷積、端到端、增強和建模一體化)
      據賈磊介紹,這項技術(shù)顛覆了傳統基于數字信號處理的麥克陣列算法,因為它直接拋棄了數字信號處理學(xué)科和語(yǔ)音識別學(xué)科的各種先驗假設,直接端到端進(jìn)行一體化建模。相較于傳統基于數字信號處理的麥克陣列算法,錯誤率降低超過(guò)30%;而國際上采用類(lèi)似思路方法的相對錯誤率降低約為16%。
      我們來(lái)看下,30%的錯誤率降低,百度是如何做到的。
      一、傳統方法
      先從傳統方法說(shuō)起。
      目前,語(yǔ)音識別技術(shù)在高信噪比場(chǎng)景下表現良好,但在低信噪比場(chǎng)景下,往往表現不穩定。遠場(chǎng)語(yǔ)音識別是一個(gè)典型的低信噪比場(chǎng)景。在遠場(chǎng)環(huán)境下,目標聲源距離拾音器較遠,就會(huì )使目標信號衰減嚴重,加之環(huán)境嘈雜,干擾信號眾多,最終導致信噪比較低,語(yǔ)音識別性能較差。用戶(hù)站在3米甚至5米遠處與智能音箱進(jìn)行語(yǔ)音交互就是一個(gè)典型的遠場(chǎng)語(yǔ)音識別應用場(chǎng)景。
      傳統上,為了提升遠場(chǎng)語(yǔ)音識別的準確率,一般會(huì )使用麥克風(fēng)陣列作為拾音器。利用多通道語(yǔ)音信號處理技術(shù),增強目標信號,提升語(yǔ)音識別精度。
      目前,絕大多數在售的智能音箱產(chǎn)品系統所采用的多通道語(yǔ)音識別系統,都是由一個(gè)前端增強模塊和一個(gè)后端語(yǔ)音識別聲學(xué)建模模塊串聯(lián)而成的:
      前端增強模塊通常包括到達方向估計(DOA)和波束生成(BF)。DOA技術(shù)主要用于估計目標聲源的方向,BF技術(shù)則利用目標聲源的方位信息,增強目標信號,抑制干擾信號。
      后端語(yǔ)音識別聲學(xué)建模模塊,會(huì )對這一路增強后的語(yǔ)音信號進(jìn)行深度學(xué)習建模。這個(gè)建模過(guò)程完全類(lèi)似于手機上的近場(chǎng)語(yǔ)音識別的建模過(guò)程,只不過(guò)輸入建模過(guò)程的信號不是手機麥克風(fēng)采集的一路近場(chǎng)信號,而是用基于麥克陣列數字信號處理技術(shù)增強后的一路增強信號。
      近些年,前端語(yǔ)音增強技術(shù)也逐漸開(kāi)始用深度學(xué)習來(lái)做到達方向估計(DOA)和波束生成(BF),不少論文中和產(chǎn)品中也都提到了用深度學(xué)習技術(shù)來(lái)替代麥克陣列系統中的傳統數字信號處理技術(shù),也獲得了一些提升。
      但,
      1)波束區域拾音方法有局限性。上面這一類(lèi)語(yǔ)音增強技術(shù)大都是采用基于MSE的優(yōu)化準則,從聽(tīng)覺(jué)感知上使得波束內語(yǔ)音更加清晰,波束外的背景噪音更小。但是聽(tīng)覺(jué)感知和識別率并不完全一致。而且這種方法在噪音內容也是語(yǔ)音內容的時(shí)候(例如電視和人在同一個(gè)方向時(shí)),性能會(huì )急劇下降。
      2)增強和識別模塊優(yōu)化目標不一致。前端語(yǔ)音增強模塊的優(yōu)化過(guò)程獨立于后端識別模塊。該優(yōu)化目標與后端識別系統的最終目標不一致。目標的不統一很可能導致前端增強模塊的優(yōu)化結果在最終目標上并非最優(yōu)。
      3)真實(shí)產(chǎn)品環(huán)境復雜,傳統方法會(huì )影響使用體驗。由于真實(shí)產(chǎn)品場(chǎng)合,聲源環(huán)境復雜,因此大多數產(chǎn)品都是先由DOA確定出聲源方向后,再在該方向使用波束生成形成波束,對波束內的信號的信噪比進(jìn)行提升,同時(shí)抑制波束外的噪音的干擾。這樣的機制使得整個(gè)系統的工作效果都嚴重依賴(lài)于聲源定位的準確性。同時(shí)用戶(hù)第一次說(shuō)喚醒詞或者是語(yǔ)音指令的時(shí)候,第一次的語(yǔ)音很難準確利用波束信息(智能音箱沒(méi)有眼睛,他不知道你在第一次喚醒時(shí)候,所在的方向是什么。或者是由于周?chē)h(huán)境嘈雜,喚醒之后人就變換了自己的位置,嘈雜的環(huán)境導致對人的位置變動(dòng)的跟蹤失效),影響了首次喚醒率和首句識別率。
      二、一體化的端到端識別
      2017年谷歌團隊最早提出采用神經(jīng)網(wǎng)絡(luò )來(lái)解決前端語(yǔ)音增強和語(yǔ)音聲學(xué)建模的一體化建模問(wèn)題。
      文章從信號處理的Filter-and-Sum方法出發(fā),首先推導出時(shí)域上的模型結構,然后進(jìn)一步推導出頻域上的模型結構FCLP(Factored Complex Linear Projection),相比時(shí)域模型而言大幅降低了計算量。
      該結構先后通過(guò)空間濾波和頻域濾波,從多通道語(yǔ)音中抽取出多個(gè)方向的特征,然后將特征送給后端識別模型,最終實(shí)現網(wǎng)絡(luò )的聯(lián)合優(yōu)化。
      谷歌提出的FCLP結構仍然是以信號處理方法為出發(fā)點(diǎn),起源于delayandsum濾波器,用一個(gè)深度學(xué)習網(wǎng)絡(luò )去模擬和逼近信號波束,因此也會(huì )受限于信號處理方法的一些先驗假設。
      比如FCLP的最低層沒(méi)有挖掘頻帶之間的相關(guān)性信息,存在多路麥克信息使用不充分的問(wèn)題,影響了深度學(xué)習建模過(guò)程的模型精度。
      再比如,beam的方向(looking direction)數目被定義成10個(gè)以下,主要是對應于數字信號處理過(guò)程的波束空間劃分。這種一定要和數字信號處理過(guò)程看齊的深度學(xué)習模型結構設計,嚴重影響了深度學(xué)習技術(shù)在該方向上的發(fā)揮和延伸,限制了深度學(xué)習模型的模型結構的演變,制約了技術(shù)的創(chuàng )新和發(fā)展。
      最終谷歌學(xué)術(shù)報告,通過(guò)這種方法,相對于傳統基于數字信號處理的麥克陣列算法,得到了16%的相對錯誤率降低。
      三、百度的解決方案
      百度采用了類(lèi)似的思想,即做“語(yǔ)音增強和語(yǔ)音聲學(xué)建模一體化”的端到端建模,不過(guò)他們所采用的是“基于復數的卷積神經(jīng)網(wǎng)絡(luò )”。
      相比于谷歌的方法,該方法徹底拋棄了數字信號處理學(xué)科的先驗知識,模型結構設計和數字信號處理學(xué)科完全脫鉤,充分發(fā)揮了CNN網(wǎng)絡(luò )的多層結構和多通道特征提提取的優(yōu)勢。
      具體來(lái)講,該模型底部以復數CNN為核心,利用復數CNN網(wǎng)絡(luò )挖掘生理信號本質(zhì)特征的特點(diǎn)。采用復數CNN,復數全連接層以及CNN等多層網(wǎng)絡(luò ),直接對原始的多通道語(yǔ)音信號進(jìn)行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。
      在保留原始特征相位信息的前提下,這個(gè)模型同時(shí)實(shí)現了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來(lái)的特征,直接送入端到端的流式多級的截斷注意力模型(SMLTA)中,從而實(shí)現了從原始多路麥克信號到識別目標文字的端到端一體化建模。
      整個(gè)網(wǎng)絡(luò )的優(yōu)化準則完全依賴(lài)于語(yǔ)音識別網(wǎng)絡(luò )的優(yōu)化準則來(lái)做,完全以識別率提升為目標來(lái)做模型參數調優(yōu)。
      賈磊介紹說(shuō):“我們的模型能提取生物的信號本質(zhì)特征,作為對比,Google的系統是假設兩路麥克信號對應頻帶之間的信息產(chǎn)生關(guān)系,這沒(méi)有挖掘頻帶之間的信息,這也是Google在識別率上偏低的原因。”
      如前面提到,相對于百度智能音箱線(xiàn)上產(chǎn)品所采用的基于傳統數字信號處理的前端增強模塊和一個(gè)后端語(yǔ)音識別聲學(xué)建模過(guò)程串聯(lián)的方法,這種基于復數卷積神經(jīng)網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模一體化端到端建模技術(shù),獲得了錯誤率超過(guò)30%以上的降低。
      除此之外,賈磊在演講中還列舉了這種端到端語(yǔ)音識別的5個(gè)特點(diǎn):
      這里值得一提的是,目前百度的這種一體化建模方案已經(jīng)被集成到百度最新發(fā)布的鴻鵠芯片中,該網(wǎng)絡(luò )所占內存不到200K。
      四、結尾
      30%的降低,這也是近期深度學(xué)習遠場(chǎng)識別技術(shù)中,最大幅度的產(chǎn)品性能提升。賈磊認為,這揭示了“端到端建模”將是遠場(chǎng)語(yǔ)音識別產(chǎn)業(yè)應用的重要發(fā)展方向。
      賈磊隨后補充說(shuō):
      “本質(zhì)上人類(lèi)語(yǔ)音交互都是遠場(chǎng)。手機麥克風(fēng)放在嘴邊的近場(chǎng)語(yǔ)音交互,只是人們最初在做語(yǔ)音識別時(shí),由于無(wú)法解決遠場(chǎng)識別問(wèn)題而做的一個(gè)限制。
      如果遠場(chǎng)語(yǔ)音技術(shù)在未來(lái)三年成熟以后,所有的語(yǔ)音都是遠場(chǎng)喚醒方式,喚醒之后隨意連續的輸入,任何一個(gè)家電設備或者汽車(chē)設備,都可以攜帶語(yǔ)音交互功能,進(jìn)行本領(lǐng)域的查詢(xún)。所以這個(gè)技術(shù)成熟意味著(zhù)遠場(chǎng)語(yǔ)音識別將走進(jìn)千家萬(wàn)戶(hù),在所有我們看到的設備上,都會(huì )以遠場(chǎng)語(yǔ)音交互為主體,如果再配合芯片的發(fā)展,語(yǔ)音識別、語(yǔ)音合成,將一體化地來(lái)解決人類(lèi)終端交互,我覺(jué)得是可以期待的。”
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 淮安市| 临猗县| 江西省| 沙田区| 岢岚县| 澎湖县| 三江| 汕头市| 宾阳县| 柏乡县| 丰都县| 吉林市| 内江市| 时尚| 新野县| 墨竹工卡县| 涟源市| 西安市| 延长县| 侯马市| 尚志市| 衡南县| 中山市| 新丰县| 石台县| 麻城市| 宁乡县| 洞口县| 高淳县| 曲沃县| 明星| 揭阳市| 杭锦旗| 喜德县| 咸丰县| 吉木萨尔县| 莆田市| 萨嘎县| 福安市| 定西市| 虎林市| http://444 http://444 http://444 http://444 http://444 http://444