• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    全球最大多領(lǐng)域中文語(yǔ)音識別數據集 WenetSpeech 正式發(fā)布并開(kāi)放下載

    2021-10-29 14:44:57   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


     
      日前,西北工業(yè)大學(xué)音頻語(yǔ)音和語(yǔ)言處理研究組(ASLPLab)、出門(mén)問(wèn)問(wèn)、希爾貝殼聯(lián)合發(fā)布1萬(wàn)小時(shí)多領(lǐng)域中文語(yǔ)音識別數據集WenetSpeech,在騰訊會(huì )議天籟實(shí)驗室、華為升思MindSpore、西安未來(lái)人工智能計算中心等機構大力支持下,該數據集目前已經(jīng)開(kāi)放下載。
      數據申請入口:
      https://wenet-e2e.github.io/WenetSpeech/
      目前該工作已經(jīng)投稿語(yǔ)音研究頂級會(huì )議ICASSP2022,詳見(jiàn):
      https://arxiv.org/pdf/2110.03370.pdf
      WenetSpeech介紹
      近十年以來(lái),在深度學(xué)習的推動(dòng)下,語(yǔ)音識別技術(shù)和應用均取得了突飛猛進(jìn)的發(fā)展,搭載語(yǔ)音識別技術(shù)的相關(guān)產(chǎn)品和服務(wù),諸如語(yǔ)音搜索、語(yǔ)音輸入法、智能音箱、智能電視、智能穿戴、智能客服、機器人等已經(jīng)廣泛應用到我們生活的方方面面。但在現有的中文語(yǔ)音識別研究中,由于開(kāi)源中文語(yǔ)音數據集數據量少,場(chǎng)景單一,缺乏挑戰性,不能反映研究模型在大數據量和復雜場(chǎng)景下的泛化能力,例如,當前最大的中文普通話(huà)開(kāi)源數據集AIShell-2,包含1000小時(shí)的朗讀風(fēng)格錄制數據,主流識別系統在該數據的測試集上獲得的錯誤率低至5.3%左右。工業(yè)界往往使用更大規模的內部數據進(jìn)行研究,而學(xué)術(shù)界無(wú)法獲取這些數據進(jìn)行研究,這導致了中文語(yǔ)音識別研究在學(xué)術(shù)界和工業(yè)界的嚴重割裂。另一方面,當下研究的熱點(diǎn)無(wú)監督學(xué)習和自學(xué)習,在中文語(yǔ)音識別領(lǐng)域,也缺乏公開(kāi)標準的大數據集的支持。
      今年以來(lái),Facebook發(fā)布面向監督學(xué)習的5萬(wàn)小時(shí)的英文audiobook數據集Multilingual LibriSpeech;SpeechColab發(fā)布1萬(wàn)小時(shí)的多領(lǐng)域英文數據集GigaSpeech。受這些工作的啟發(fā),同時(shí)中文語(yǔ)音識別研究也迫切需要一個(gè)標準的大規模多領(lǐng)域的數據集,為此我們設計開(kāi)發(fā)了WenetSpeech數據集。
      WenetSpeech除了含有10000+小時(shí)的高質(zhì)量標注數據之外,還包括2400+小時(shí)弱標注數據和22400+小時(shí)的總音頻,覆蓋各種互聯(lián)網(wǎng)音視頻、噪聲背景條件、講話(huà)方式,來(lái)源領(lǐng)域包括有聲書(shū)、解說(shuō)、紀錄片、電視劇、訪(fǎng)談、新聞、朗讀、演講、綜藝和其他等10大場(chǎng)景,領(lǐng)域詳細統計數據如下圖所示。
      數據收集
      WenetSpeech所有的數據均來(lái)源于網(wǎng)絡(luò ),其中三分之二的數據來(lái)自Youtube,三分之一來(lái)自Podcast。
      對于Youtube數據,我們人工選擇含有嵌入式硬字幕(字幕嵌入在視頻流中,非外掛字幕)的視頻資源,并構建了如下圖的基于OCR的系統進(jìn)行數據挖掘,流程如下:
      文本檢測,在當前視頻幀上進(jìn)行文本檢測。
      字幕位置校驗,判斷檢測到的文本區域是否為合法的字幕區域。
      字幕切換檢測,已得到字幕位置和區域,在連續的視頻幀上對該區域進(jìn)行檢測,直至該區域的字幕變化為止,得到字幕的起始和結束時(shí)間。
      文本識別,將字幕區域進(jìn)行OCR識別,得到文本。
      將3中對應時(shí)間的音頻提取出來(lái),結合4中的文本,即得到字幕文本和該文本對應的音頻,也就是語(yǔ)音識別訓練中所需的文本和語(yǔ)音的候選平行數據。
      下圖中給出該OCR系統在不同場(chǎng)景下的幾個(gè)典型示例。圖中綠色的框為檢測到的所有文字區域,紅色的框為判定為字幕的文字區域,紅色框上方的文本為OCR的識別結果。可以看到,該系統正確的判定了字幕區域,并準確的識別了字幕文本,同時(shí)經(jīng)過(guò)我們測試,發(fā)現該系統也可以準確判定字幕的起始和結束時(shí)間。
      對于Podcast數據,我們使用國內最好的商業(yè)語(yǔ)音識別系統之一,對Podcast數據進(jìn)行切分,并生成切分后音頻和其所對應的文本作為候選平行數據。
      數據校驗
      OCR字幕識別和ASR語(yǔ)音轉寫(xiě)生成的候選平行數據中不可避免的存在一些錯誤,如人工字幕本身有錯誤,字幕時(shí)間不準,OCR識別錯誤,轉寫(xiě)錯誤等。為了檢測該錯誤,WenetSpeech中提出一種基于端到端的自動(dòng)標注錯誤檢測算法,如下圖所示。該算法首先根據候選平行數據的文本(ref)構建一個(gè)一個(gè)強制對齊圖,該圖中允許在任意位置進(jìn)行刪除、插入和替換操作。然后將候選平行數據的語(yǔ)音輸入到該圖進(jìn)行解碼得到識別結果(hyp),最終計算ref和hyp的編輯距離并做歸一化從而得到該候選平行數據的置信度。當候選語(yǔ)音和文本一致性高時(shí),ref和hyp一致性高,置信度高,反之,當候選語(yǔ)音和文本一致性低時(shí),置信度低。
      WenetSpeech中選取置信度>=95%的數據作為高質(zhì)量標注數據,選取置信度在0.6和0.95之間的數據作為弱監督數據。關(guān)于該算法的詳細內容,請參考我們的論文。
      排行榜
      除了訓練中校驗用途的Dev集外,我們還設計了兩個(gè)人工精標測試集,互聯(lián)網(wǎng)測試集Test_Net和會(huì )議測試集Test_Meeting,作為“匹配”和“不匹配”測試,同時(shí)提供三個(gè)語(yǔ)音識別主流工具包(Kaldi,ESPNet,WeNet)上搭建的基線(xiàn)系統,方便大家復現。在10000+小時(shí)的高質(zhì)量標注數據上,目前三個(gè)系統的語(yǔ)音識別率如下表所示(結果為MER%,中文算字錯誤,英文算詞錯誤)。
      WenetSpeech 2.0
      雖然WenetSpeech將開(kāi)源中文語(yǔ)音識別訓練數據規模提升到一個(gè)新的高度,然而我們希望進(jìn)一步進(jìn)行擴展和完善:
      從領(lǐng)域角度,現有數據集在口音、中英文混合、會(huì )議、遠場(chǎng)、教育、電話(huà)、語(yǔ)音助手等場(chǎng)景仍覆蓋不足。
      從數據量角度,現有的2萬(wàn)+小時(shí)的總數據,對于無(wú)監督學(xué)習仍然遠遠不夠。
      因此,WenetSpeech在設計之初,就考慮到了未來(lái)做進(jìn)一步擴展。目前我們已經(jīng)開(kāi)始WenetSpeech 2.0的工作,并且在2.0中,我們希望更多的行業(yè)機構和開(kāi)發(fā)者能參與進(jìn)來(lái),能夠集行業(yè)之力更好、更快的去做一個(gè)更大更泛化的數據集,從而進(jìn)一步反哺和造福整個(gè)行業(yè)。如果您或者您的機構有興趣和意愿參與WenetSpeech 2.0的數據合作,請微信或者郵箱聯(lián)系以下作者(非誠勿擾)。
      致謝
      感謝西北工業(yè)大學(xué)、出門(mén)問(wèn)問(wèn)、希爾貝殼、騰訊會(huì )議天籟實(shí)驗室、華為升思MindSpore、西安未來(lái)人工智能計算中心對該工作的支持;感謝WenetSpeech團隊的各位小伙伴夜以繼日的努力;感謝都家宇和陳果果對該工作提出的寶貴意見(jiàn)。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 文安县| 阿克苏市| 沙河市| 镇坪县| 义马市| 辛集市| 五华县| 高唐县| 维西| 扶绥县| 沁阳市| 成安县| 多伦县| 谷城县| 桃源县| 庆云县| 乐至县| 新竹市| 克东县| 天长市| 烟台市| 宜昌市| 望江县| 河西区| 唐海县| 香格里拉县| 石门县| 怀远县| 苏尼特左旗| 宁波市| 达拉特旗| 个旧市| 莱西市| 深州市| 淮阳县| 锦州市| 瓮安县| 石河子市| 自贡市| 沧州市| 赣榆县| http://444 http://444 http://444 http://444 http://444 http://444