• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    科大訊飛三連冠!

    2020-05-07 15:52:51   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      連續三次奪冠!
      五四青年節當日,國際多通道語(yǔ)音分離和識別大賽(CHiME)組委會(huì )在線(xiàn)揭曉最新一屆CHiME-6成績(jì):
      科大訊飛聯(lián)合中科大語(yǔ)音及語(yǔ)言信息處理國家工程實(shí)驗室(USTC-NELSLIP)在給定說(shuō)話(huà)人邊界的多通道語(yǔ)音識別兩個(gè)參賽任務(wù)上奪冠。
      破自己的紀錄!
      自2016年以來(lái),科大訊飛第三次參加這項國際競賽并連續奪冠,這次的語(yǔ)音識別錯誤率從CHiME-5的46.1%降至30.5%。
    • 喜報丨科大訊飛包攬CHiME-5全部冠軍
    • 喜報|科大訊飛包攬CHiME-4三項冠軍
      CHiME-6被稱(chēng)為“史上最難的語(yǔ)音識別任務(wù)”。
      和CHiME-5相同,CHiME-6比賽使用的語(yǔ)音素材包括多個(gè)生活場(chǎng)景——多人在廚房邊做飯邊聊天、在起居室邊用餐邊聊天、在客廳聊天,帶來(lái)以下四大難點(diǎn):
    • 大量的語(yǔ)音交疊(Speech Overlap)
    • 遠場(chǎng)混響和噪聲干擾對錄音的影響
    • 對話(huà)風(fēng)格非常自由、近乎隨意
    • 訓練數據有限
    CHiME-6音頻樣本采集于廚房、起居室、客廳等場(chǎng)景的多人對話(huà)
      本次比賽的Track1任務(wù)與CHiME-5相同,即在給定說(shuō)話(huà)人邊界的情況下重點(diǎn)考察參賽團隊的多通道信號處理能力及復雜場(chǎng)景語(yǔ)音識別能力。新設立的Track2任務(wù)要求參賽機構在自動(dòng)說(shuō)話(huà)人分離的基礎上再進(jìn)行語(yǔ)音識別。
      2018年的CHiME-5比賽,最優(yōu)的參賽系統語(yǔ)音識別錯誤率仍高達46.1%,距離實(shí)用仍有較大差距。今年科大訊飛聯(lián)合團隊重點(diǎn)聚焦于Track1,希望進(jìn)一步探索復雜場(chǎng)景語(yǔ)音識別實(shí)用化的可能性。
      通過(guò)團隊的技術(shù)攻關(guān),將該任務(wù)上的語(yǔ)音識別錯誤率從原來(lái)的46.1%降至30.5%,大幅刷新該項賽事歷史最好成績(jì),最終在Track1的兩個(gè)子任務(wù)(Track1-RankingA,需使用官方語(yǔ)言模型;Track1-RankingB,不限制語(yǔ)言模型)上均斬獲冠軍。
    科大訊飛奪得CHiME-6冠軍(Track1:Ranking A)
    科大訊飛奪得CHiME-6冠軍(Track1:Ranking B)
      同樣的考題,躍升的成績(jì),靠什么?
      在遠場(chǎng)、混響、噪音、聲音疊加、語(yǔ)言風(fēng)格隨意等諸多不確定性的復雜場(chǎng)景下,得益于多年來(lái)在真實(shí)場(chǎng)景中的技術(shù)積累,科大訊飛聯(lián)合團隊針對比賽任務(wù)進(jìn)行了一系列技術(shù)創(chuàng )新:
      在前端信號處理方面,聯(lián)合團隊提出了基于空間-說(shuō)話(huà)人同步感知的迭代掩碼估計算法(Spatial-and-Speaker-Aware Iterative Mask Estimation,SSA-IME),該算法結合傳統信號處理和深度學(xué)習的優(yōu)點(diǎn),利用空時(shí)多維信息進(jìn)行建模,迭代地從多個(gè)說(shuō)話(huà)人場(chǎng)景中精確捕捉目標說(shuō)話(huà)人的信息。該算法不僅有效降低環(huán)境干擾噪聲,而且可以有效消除干擾說(shuō)話(huà)人的語(yǔ)音,從而大幅降低語(yǔ)音識別的處理難度。
      在后端聲學(xué)模型上,聯(lián)合團隊提出了基于空間-說(shuō)話(huà)人同步感知的聲學(xué)模型(Spatial-and-Speaker-Aware Acoustic Model,SSA-AM),通過(guò)在聲學(xué)模型輸入端拼接多維度空間信息和不同說(shuō)話(huà)人信息,使其能自適應區分目標說(shuō)話(huà)人和干擾說(shuō)話(huà)人。因此,聲學(xué)模型不僅依賴(lài)前端算法的處理結果,也能夠自適應完成對目標說(shuō)話(huà)人語(yǔ)音特征的提取,大幅提升多人對話(huà)場(chǎng)景下語(yǔ)音識別聲學(xué)模型的容錯率和魯棒性。
      語(yǔ)音識別應用場(chǎng)景更有A.I.
      科大訊飛致力于智能語(yǔ)音技術(shù)的源頭創(chuàng )新及行業(yè)應用,并不斷挑戰語(yǔ)音識別實(shí)際應用中的技術(shù)難題。
      2010年發(fā)布語(yǔ)音云,持續改善語(yǔ)音輸入、語(yǔ)音交互場(chǎng)景的準確率。
      2015年發(fā)布訊飛聽(tīng)見(jiàn),逐步提升人人對話(huà)場(chǎng)景的準確率。
      本次CHiME-6的研究成果無(wú)疑將進(jìn)一步拓展語(yǔ)音識別的應用空間:
      促進(jìn)會(huì )議場(chǎng)景語(yǔ)音識別的實(shí)用化。相比于CHiME-6的比賽環(huán)境,在實(shí)際生活中的遠距離生活場(chǎng)景中,說(shuō)話(huà)風(fēng)格隨意性減少、語(yǔ)音疊加現象減少、訓練數據大幅增加,錯誤率也會(huì )大幅下降。本次比賽的技術(shù)成果可應用于訊飛聽(tīng)見(jiàn)智能會(huì )議系統升級,進(jìn)一步促進(jìn)會(huì )議場(chǎng)景語(yǔ)音識別的實(shí)用化。
      廣泛應用于不同的消費產(chǎn)品和服務(wù)中。搭載八麥克風(fēng)陣列的訊飛智能錄音筆、能完整記錄會(huì )議內容的訊飛智能辦公本、能免切換識別中英文及23種方言的訊飛輸入法,為廣大用戶(hù)解決不同場(chǎng)景下的語(yǔ)音識別需求。
      為全球提供多語(yǔ)種智能語(yǔ)音解決方案。得益于英文識別領(lǐng)域的深厚功力,科大訊飛正在大力拓展多語(yǔ)種語(yǔ)音識別方面的技術(shù)研究,有望為全球更多企業(yè)及消費者提供優(yōu)質(zhì)的多語(yǔ)種智能語(yǔ)音解決方案。
      讓機器能聽(tīng)會(huì )說(shuō),能理解會(huì )思考,用人工智能建設美好世界——這是我們的使命。
      此次CHiME-6再奪冠,在“讓機器能聽(tīng)”上,我們又邁進(jìn)了一大步。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 桦川县| 石门县| 平谷区| 天峨县| 太白县| 临泉县| 台北市| 常山县| 云龙县| 穆棱市| 邵东县| 彭水| 佳木斯市| 洛浦县| 宣化县| 贡觉县| 大厂| 北川| 永德县| 罗江县| 蕲春县| 固始县| 东至县| 盈江县| 镇平县| 肇东市| 扶风县| 沭阳县| 呼玛县| 筠连县| 上犹县| 灌云县| 扎囊县| 迁安市| 龙川县| 恭城| 宝清县| 宣威市| 德清县| 德安县| 崇州市| http://444 http://444 http://444 http://444 http://444 http://444