日前，西北工業(yè)大學(xué)音頻語(yǔ)音和語(yǔ)言處理研究組(ASLPLab)、出門問(wèn)問(wèn)、希爾貝殼聯(lián)合發(fā)布1萬(wàn)小時(shí)多領(lǐng)域中文語(yǔ)音識(shí)別數(shù)據(jù)集WenetSpeech，在騰訊會(huì)議天籟實(shí)驗(yàn)室、華為升思MindSpore、西安未來(lái)人工智能計(jì)算中心等機(jī)構(gòu)大力支持下，該數(shù)據(jù)集目前已經(jīng)開放下載。

　　數(shù)據(jù)申請(qǐng)入口:

　　https://wenet-e2e.github.io/WenetSpeech/

　　目前該工作已經(jīng)投稿語(yǔ)音研究頂級(jí)會(huì)議ICASSP2022，詳見：

　　https://arxiv.org/pdf/2110.03370.pdf

　　WenetSpeech介紹

　　近十年以來(lái)，在深度學(xué)習(xí)的推動(dòng)下，語(yǔ)音識(shí)別技術(shù)和應(yīng)用均取得了突飛猛進(jìn)的發(fā)展，搭載語(yǔ)音識(shí)別技術(shù)的相關(guān)產(chǎn)品和服務(wù)，諸如語(yǔ)音搜索、語(yǔ)音輸入法、智能音箱、智能電視、智能穿戴、智能客服、機(jī)器人等已經(jīng)廣泛應(yīng)用到我們生活的方方面面。但在現(xiàn)有的中文語(yǔ)音識(shí)別研究中，由于開源中文語(yǔ)音數(shù)據(jù)集數(shù)據(jù)量少，場(chǎng)景單一，缺乏挑戰(zhàn)性，不能反映研究模型在大數(shù)據(jù)量和復(fù)雜場(chǎng)景下的泛化能力，例如，當(dāng)前最大的中文普通話開源數(shù)據(jù)集AIShell-2，包含1000小時(shí)的朗讀風(fēng)格錄制數(shù)據(jù)，主流識(shí)別系統(tǒng)在該數(shù)據(jù)的測(cè)試集上獲得的錯(cuò)誤率低至5.3%左右。工業(yè)界往往使用更大規(guī)模的內(nèi)部數(shù)據(jù)進(jìn)行研究，而學(xué)術(shù)界無(wú)法獲取這些數(shù)據(jù)進(jìn)行研究，這導(dǎo)致了中文語(yǔ)音識(shí)別研究在學(xué)術(shù)界和工業(yè)界的嚴(yán)重割裂。另一方面，當(dāng)下研究的熱點(diǎn)無(wú)監(jiān)督學(xué)習(xí)和自學(xué)習(xí)，在中文語(yǔ)音識(shí)別領(lǐng)域，也缺乏公開標(biāo)準(zhǔn)的大數(shù)據(jù)集的支持。

　　今年以來(lái)，F(xiàn)acebook發(fā)布面向監(jiān)督學(xué)習(xí)的5萬(wàn)小時(shí)的英文audiobook數(shù)據(jù)集Multilingual LibriSpeech；SpeechColab發(fā)布1萬(wàn)小時(shí)的多領(lǐng)域英文數(shù)據(jù)集GigaSpeech。受這些工作的啟發(fā)，同時(shí)中文語(yǔ)音識(shí)別研究也迫切需要一個(gè)標(biāo)準(zhǔn)的大規(guī)模多領(lǐng)域的數(shù)據(jù)集，為此我們?cè)O(shè)計(jì)開發(fā)了WenetSpeech數(shù)據(jù)集。

　　WenetSpeech除了含有10000+小時(shí)的高質(zhì)量標(biāo)注數(shù)據(jù)之外，還包括2400+小時(shí)弱標(biāo)注數(shù)據(jù)和22400+小時(shí)的總音頻，覆蓋各種互聯(lián)網(wǎng)音視頻、噪聲背景條件、講話方式，來(lái)源領(lǐng)域包括有聲書、解說(shuō)、紀(jì)錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場(chǎng)景，領(lǐng)域詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如下圖所示。

　　數(shù)據(jù)收集

　　WenetSpeech所有的數(shù)據(jù)均來(lái)源于網(wǎng)絡(luò)，其中三分之二的數(shù)據(jù)來(lái)自Youtube，三分之一來(lái)自Podcast。

　　對(duì)于Youtube數(shù)據(jù)，我們?nèi)斯みx擇含有嵌入式硬字幕（字幕嵌入在視頻流中，非外掛字幕）的視頻資源，并構(gòu)建了如下圖的基于OCR的系統(tǒng)進(jìn)行數(shù)據(jù)挖掘，流程如下：

　　文本檢測(cè)，在當(dāng)前視頻幀上進(jìn)行文本檢測(cè)。

　　字幕位置校驗(yàn)，判斷檢測(cè)到的文本區(qū)域是否為合法的字幕區(qū)域。

　　字幕切換檢測(cè)，已得到字幕位置和區(qū)域，在連續(xù)的視頻幀上對(duì)該區(qū)域進(jìn)行檢測(cè)，直至該區(qū)域的字幕變化為止，得到字幕的起始和結(jié)束時(shí)間。

　　文本識(shí)別，將字幕區(qū)域進(jìn)行OCR識(shí)別，得到文本。

　　將3中對(duì)應(yīng)時(shí)間的音頻提取出來(lái)，結(jié)合4中的文本，即得到字幕文本和該文本對(duì)應(yīng)的音頻，也就是語(yǔ)音識(shí)別訓(xùn)練中所需的文本和語(yǔ)音的候選平行數(shù)據(jù)。

　　下圖中給出該OCR系統(tǒng)在不同場(chǎng)景下的幾個(gè)典型示例。圖中綠色的框?yàn)闄z測(cè)到的所有文字區(qū)域，紅色的框?yàn)榕卸樽帜坏奈淖謪^(qū)域，紅色框上方的文本為OCR的識(shí)別結(jié)果。可以看到，該系統(tǒng)正確的判定了字幕區(qū)域，并準(zhǔn)確的識(shí)別了字幕文本，同時(shí)經(jīng)過(guò)我們測(cè)試，發(fā)現(xiàn)該系統(tǒng)也可以準(zhǔn)確判定字幕的起始和結(jié)束時(shí)間。

　　對(duì)于Podcast數(shù)據(jù)，我們使用國(guó)內(nèi)最好的商業(yè)語(yǔ)音識(shí)別系統(tǒng)之一，對(duì)Podcast數(shù)據(jù)進(jìn)行切分，并生成切分后音頻和其所對(duì)應(yīng)的文本作為候選平行數(shù)據(jù)。

　　數(shù)據(jù)校驗(yàn)

　　OCR字幕識(shí)別和ASR語(yǔ)音轉(zhuǎn)寫生成的候選平行數(shù)據(jù)中不可避免的存在一些錯(cuò)誤，如人工字幕本身有錯(cuò)誤，字幕時(shí)間不準(zhǔn)，OCR識(shí)別錯(cuò)誤，轉(zhuǎn)寫錯(cuò)誤等。為了檢測(cè)該錯(cuò)誤，WenetSpeech中提出一種基于端到端的自動(dòng)標(biāo)注錯(cuò)誤檢測(cè)算法，如下圖所示。該算法首先根據(jù)候選平行數(shù)據(jù)的文本(ref)構(gòu)建一個(gè)一個(gè)強(qiáng)制對(duì)齊圖，該圖中允許在任意位置進(jìn)行刪除、插入和替換操作。然后將候選平行數(shù)據(jù)的語(yǔ)音輸入到該圖進(jìn)行解碼得到識(shí)別結(jié)果(hyp)，最終計(jì)算ref和hyp的編輯距離并做歸一化從而得到該候選平行數(shù)據(jù)的置信度。當(dāng)候選語(yǔ)音和文本一致性高時(shí)，ref和hyp一致性高，置信度高，反之，當(dāng)候選語(yǔ)音和文本一致性低時(shí)，置信度低。

　　WenetSpeech中選取置信度>=95%的數(shù)據(jù)作為高質(zhì)量標(biāo)注數(shù)據(jù)，選取置信度在0.6和0.95之間的數(shù)據(jù)作為弱監(jiān)督數(shù)據(jù)。關(guān)于該算法的詳細(xì)內(nèi)容，請(qǐng)參考我們的論文。

　　排行榜

　　除了訓(xùn)練中校驗(yàn)用途的Dev集外，我們還設(shè)計(jì)了兩個(gè)人工精標(biāo)測(cè)試集，互聯(lián)網(wǎng)測(cè)試集Test_Net和會(huì)議測(cè)試集Test_Meeting，作為“匹配”和“不匹配”測(cè)試，同時(shí)提供三個(gè)語(yǔ)音識(shí)別主流工具包（Kaldi，ESPNet，WeNet）上搭建的基線系統(tǒng)，方便大家復(fù)現(xiàn)。在10000+小時(shí)的高質(zhì)量標(biāo)注數(shù)據(jù)上，目前三個(gè)系統(tǒng)的語(yǔ)音識(shí)別率如下表所示（結(jié)果為MER%，中文算字錯(cuò)誤，英文算詞錯(cuò)誤）。

　　WenetSpeech 2.0

　　雖然WenetSpeech將開源中文語(yǔ)音識(shí)別訓(xùn)練數(shù)據(jù)規(guī)模提升到一個(gè)新的高度，然而我們希望進(jìn)一步進(jìn)行擴(kuò)展和完善：

　　從領(lǐng)域角度，現(xiàn)有數(shù)據(jù)集在口音、中英文混合、會(huì)議、遠(yuǎn)場(chǎng)、教育、電話、語(yǔ)音助手等場(chǎng)景仍覆蓋不足。

　　從數(shù)據(jù)量角度，現(xiàn)有的2萬(wàn)+小時(shí)的總數(shù)據(jù)，對(duì)于無(wú)監(jiān)督學(xué)習(xí)仍然遠(yuǎn)遠(yuǎn)不夠。

　　因此，WenetSpeech在設(shè)計(jì)之初，就考慮到了未來(lái)做進(jìn)一步擴(kuò)展。目前我們已經(jīng)開始WenetSpeech 2.0的工作，并且在2.0中，我們希望更多的行業(yè)機(jī)構(gòu)和開發(fā)者能參與進(jìn)來(lái)，能夠集行業(yè)之力更好、更快的去做一個(gè)更大更泛化的數(shù)據(jù)集，從而進(jìn)一步反哺和造福整個(gè)行業(yè)。如果您或者您的機(jī)構(gòu)有興趣和意愿參與WenetSpeech 2.0的數(shù)據(jù)合作，請(qǐng)微信或者郵箱聯(lián)系以下作者（非誠(chéng)勿擾）。

　　致謝

　　感謝西北工業(yè)大學(xué)、出門問(wèn)問(wèn)、希爾貝殼、騰訊會(huì)議天籟實(shí)驗(yàn)室、華為升思MindSpore、西安未來(lái)人工智能計(jì)算中心對(duì)該工作的支持；感謝WenetSpeech團(tuán)隊(duì)的各位小伙伴夜以繼日的努力；感謝都家宇和陳果果對(duì)該工作提出的寶貴意見。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

全球最大多領(lǐng)域中文語(yǔ)音識(shí)別數(shù)據(jù)集 WenetSpeech 正式發(fā)布并開放下載

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)