
據了解,本次競賽數據由聯(lián)合主辦方之一的標貝科技全程提供支持,近400小時(shí)的高質(zhì)量成人朗讀數據和兒童朗讀、對話(huà)等參賽數據,分別取自標貝自有5000小時(shí)成人中文朗讀語(yǔ)音數據庫、1800小時(shí)的少兒語(yǔ)音對話(huà)數據庫,充分滿(mǎn)足競賽需要,匹配語(yǔ)音識別模型訓練。
事實(shí)上,賽事數據一直是本屆SLTCSRC一大吸睛點(diǎn),讓賽事的關(guān)注度與參與度隨之提升。而兒童語(yǔ)音數據更是廠(chǎng)商的關(guān)注點(diǎn)。緣由該數據在智慧教育、早教產(chǎn)品、智能音箱等眾多語(yǔ)音交互場(chǎng)景中有著(zhù)廣泛應用基礎。但兒童語(yǔ)言因其聲線(xiàn)與吐字等原因,語(yǔ)音和語(yǔ)言特性不同于成人,有著(zhù)天然的技術(shù)辨別難度。并且在訓練過(guò)程中,如果沒(méi)有覆蓋大量帶有標簽的兒童語(yǔ)音,兒童的ASR的準確性仍明顯低于成年人。因而,高質(zhì)量?jì)和疉SR數據的重要性不言而喻。
從本次賽事報名情況來(lái)看,2021SLTCSRC共吸引了近60家來(lái)自全球不同地區的高校、科研機構與廠(chǎng)商報名,覆蓋中國大陸和香港、美國、新加坡、愛(ài)爾尼亞等地區,其中國內廠(chǎng)商參賽隊伍不乏像愛(ài)奇藝、小米、網(wǎng)易、華為、馬上金融等業(yè)內熟知廠(chǎng)商,而國內高校和科研機構匯聚了清華、浙大、上海交大、中科院自動(dòng)化研究所等。本屆CSRC競賽受到了以上機構和廠(chǎng)商的積極參與,但仍有部分隊伍未能如期報名,表示希望有機會(huì )再次參賽,應用數據做研究。
另外,本次賽事數據的價(jià)值還體現在了本屆SLTCSRC論文方面。截至目前,基于標貝科技提供的兒童語(yǔ)音識別數據,已有包括SLT官方、小米、CUHK(香港中文大學(xué))等機構發(fā)表學(xué)術(shù)論文。論文的發(fā)布不僅代表著(zhù)當前業(yè)內極高的學(xué)術(shù)水平,更為從業(yè)者提供專(zhuān)業(yè)參考指南。
本屆SLTCSRC競賽結果和論文已揭曉,但行業(yè)對數據的需求卻未停止。為更好地推動(dòng)兒童語(yǔ)音產(chǎn)品研發(fā),標貝科技針對本次未能參賽以及對兒童ASR數據有更多需求的伙伴,特此提供以下2套特定價(jià)格的數據產(chǎn)品
1、CSRC數據
成人朗讀數據340小時(shí)有效時(shí)長(cháng)
兒童朗讀數據28小時(shí)有效時(shí)長(cháng)
兒童對話(huà)數據29小時(shí)小時(shí)有效時(shí)長(cháng)
2、標貝科技兒童語(yǔ)音識別數據集
兒童中文語(yǔ)音數據庫有效時(shí)長(cháng)1800小時(shí)
兒童英文語(yǔ)音數據庫有效時(shí)長(cháng)500小時(shí)
兒童中英文語(yǔ)音數據庫有效時(shí)長(cháng)500小時(shí)

歡迎對以上數據感興趣的行業(yè)伙伴,與我們聯(lián)系
郵箱:marketing@data-baker.com
標貝科技官網(wǎng)數據首頁(yè):https://www.data-baker.com/#/data/index/distinguish