• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    百度賈磊:深度學(xué)習助力語(yǔ)音識別打破領(lǐng)域壁壘

    2020-01-03 09:39:27   作者:   來(lái)源:中關(guān)村在線(xiàn)   評論:0  點(diǎn)擊:


      2019年12月26日,由百度與ZOL聯(lián)手舉辦的“智見(jiàn)未來(lái)”峰會(huì )——暨2019年度“星標大獎”頒獎盛典在北京舉行。在盛典上百度語(yǔ)音首席架構師賈磊發(fā)表了主旨為“百度大腦語(yǔ)音技術(shù)的前沿進(jìn)展”的演講,從百度語(yǔ)音產(chǎn)品矩陣、百度智能語(yǔ)音解決方案、百度智能語(yǔ)音交互系統這三方面全方位介紹了百度智能語(yǔ)音交互系統全景。
    百度語(yǔ)音首席架構師賈磊
      賈磊指出,面對未來(lái)智能語(yǔ)音產(chǎn)業(yè)鏈的新需求,百度將研發(fā)新一代的端到端智能語(yǔ)音交互系統,實(shí)現語(yǔ)音交互全鏈路協(xié)同處理。
      百度創(chuàng )新提出復數CNN網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模一體化方案
      賈磊在演講中提到,傳統的遠場(chǎng)語(yǔ)音交互系統中,是先采用一個(gè)基于麥克陣列的語(yǔ)音增強模塊,之后再接一個(gè)語(yǔ)音識別模塊,兩個(gè)模塊串聯(lián)連接。這種系統設計方法具有很多先天局限性。為了更好的智能遠場(chǎng)語(yǔ)音交互體驗,我們需要設計一套全新的深度學(xué)習模型。“如果能設計一種全新架構,一套模型,從原始多路聲音信號開(kāi)始,對識別文字直接端到端建模,從而使得遠場(chǎng)識別性能大幅度的提升。可以喚醒后,360度隨意的識別,并且不用要求設備音頻回路必須是線(xiàn)性”,賈磊說(shuō)。
      而這就是百度推出“基于復數CNN網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模一體化的端到端語(yǔ)音識別”方案的初衷。其最大特點(diǎn)就是顛覆了數字信號處理學(xué)科和語(yǔ)音識別學(xué)科的傳統經(jīng)典理論,直接一套模型端到端的打通兩個(gè)學(xué)科,完全數據驅動(dòng),端到端建模“,賈磊說(shuō)。
      具體來(lái)講是,該模型底部以復數CNN為核心,利用復數CNN網(wǎng)絡(luò )挖掘生理信號特點(diǎn)。采用復數CNN,復數全連接層以及CNN等多層網(wǎng)絡(luò ),直接對原始的多通道語(yǔ)音信號進(jìn)行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。
      在保留原始特征相位信息的前提下,這個(gè)模型一次性實(shí)現了前端聲源定位、波束形成和增強特征提取等功能。該模型底部CNN抽象出來(lái)的特征,直接送入端到端的流式多級的截斷注意力模型(SMLTA)中,從而實(shí)現了從原始多路麥克信號到識別目標文字的端到端一體化建模。
      百度賈磊:百度大腦語(yǔ)音實(shí)現突破,深度學(xué)習助力語(yǔ)音識別打破領(lǐng)域壁壘
      因為整個(gè)網(wǎng)絡(luò )的優(yōu)化準則完全依賴(lài)于語(yǔ)音識別網(wǎng)絡(luò )的優(yōu)化準則來(lái)做,完全以識別率提升為目標來(lái)做模型參數調優(yōu)。而由此帶來(lái)的好處也不言而喻。根據統計數據顯示,相較于傳統基于數字信號處理的麥克陣列算法,基于復數CNN網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模使得錯誤率降低超過(guò)30%。
      賈磊說(shuō):“我們基于以上這個(gè)技術(shù),對于語(yǔ)音交互上將有更大的提升,而這種提升和進(jìn)步是顛覆性的。另外深度學(xué)習完成了數據革命和計算革命之后,開(kāi)始進(jìn)行跨學(xué)科整合,繼續獲得生命力和提升”。
      另外從“復數CNN網(wǎng)絡(luò )的語(yǔ)音增強和聲學(xué)建模一體化方案”來(lái)看,深度學(xué)習在完成數據革命和計算革命之后,開(kāi)始進(jìn)行跨學(xué)科的整合,打破學(xué)科間的壁壘,兩個(gè)學(xué)科聯(lián)合在一起繼續獲得生命力提升,這是百度語(yǔ)音技術(shù)提升的軌跡,賈磊指出。
      SMLTA+全雙工免喚醒拓展百度多語(yǔ)音識別能力
      百度提出流式多級的截斷注意力模型SMLTA,在國際上首次實(shí)現流式注意力建模超越整句注意力模型的性能,也是國際上首次實(shí)現在線(xiàn)語(yǔ)音識別大規模使用注意力模型。SMLTA在大幅提升識別速度的同時(shí),也提高了識別準確率。輸入法有效產(chǎn)品相對準確率提升15%,音箱有效產(chǎn)品相對準確率提升20%。
      基于此百度在對話(huà)能力迎來(lái)重大技術(shù)革新——全球領(lǐng)先的全雙工免喚醒能力,實(shí)現了“一次喚醒,多輪交互”免喚醒詞連續對話(huà)。
      基于以上技術(shù),百度提出了語(yǔ)音語(yǔ)義一體化解決方案,即百度可以做到一套模型同時(shí)識別中文英文和方言。如在2019年1月百度輸入法上線(xiàn)河南、山東、四川、東北、陜西、安徽方言的無(wú)障礙輸入,今年年底將支持河北、山西、湖北、湖南、云南等。另外,值得一提的是,百度輸入法還是支持中英文混合語(yǔ)音輸入,而且識別率大幅度改進(jìn)提升。
      除了在應用和技術(shù)上的突破創(chuàng )新,賈磊還帶來(lái)了百度大腦語(yǔ)音技術(shù)的前沿進(jìn)展:百度2018年和2019年先后推出“百度昆侖”“百度鴻鵠”兩款人工智能專(zhuān)用芯片,讓智能時(shí)代的核心硬件技術(shù)自主可控。經(jīng)過(guò)不斷優(yōu)化發(fā)展迭代升級,基于鴻鵠語(yǔ)音芯片已逐漸開(kāi)始覆蓋智能家居、智能車(chē)聯(lián)、智能IoT的三大場(chǎng)景解決方案。
      賈磊說(shuō),“2018年和2019年先后推出“百度昆侖”“百度鴻鵠”兩款人工智能專(zhuān)用芯片,讓智能時(shí)代的核心硬件技術(shù)自主可控”。
      主題演講最后,賈磊表示:希望通過(guò)語(yǔ)音技術(shù)和硬件芯片,為各大廠(chǎng)商為中國社會(huì )做更好地服務(wù)。
      寫(xiě)在最后
      當前以AI技術(shù)為核心的第四次工業(yè)革命已經(jīng)拉開(kāi)大幕。特別是隨著(zhù)5G商用之后,AI技術(shù)的落地正在加速,同時(shí)也是AI滲透到社會(huì )生活方方面面的開(kāi)始。
      這里百度憑借自身AI核心技術(shù)上取得諸多突破和儲備,以及積極打造AI開(kāi)放生態(tài)這兩大優(yōu)勢,正確立在A(yíng)I技術(shù)革命中的行業(yè)領(lǐng)先地位。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 尉氏县| 安达市| 彰化县| 绍兴县| 卓资县| 富民县| 大兴区| 凤台县| 临沂市| 随州市| 民权县| 临澧县| 佛坪县| 定西市| 鲁甸县| 绿春县| 云浮市| 永定县| 德惠市| 娱乐| 保山市| 石台县| 磴口县| 泌阳县| 和政县| 福鼎市| 德庆县| 明星| 新巴尔虎右旗| 河曲县| 松原市| 来安县| 康定县| 城固县| 左贡县| 类乌齐县| 托里县| 彩票| 镇坪县| 清水县| 澄迈县| http://444 http://444 http://444 http://444 http://444 http://444