• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁 > 新聞 > 國內 >
     首頁 > 新聞 > 國內 >

    語音人福音:你和我的區(qū)別可能只差一個1400小時開源數(shù)據(jù)集

    2019-03-04 09:31:03   作者:吳宇   來源:語音雜談微信公眾號   評論:0  點擊:


      Mozilla昨日發(fā)布了語音識別數(shù)據(jù)集,稱為Common Voice。該數(shù)據(jù)集由18種不同的語言(包括英語,法語,德語,普通話,威爾士語,卡比爾等)組成,并增加了來自42,000多名貢獻者的約1,400小時錄制的語音片段。 
      從體量上來看它可以算的上是同類項目中最大的多語言數(shù)據(jù)集之一,對比之前發(fā)布的Common Voice語料庫數(shù)據(jù)集,20,000個人的近40萬個錄音(500小時語音數(shù)據(jù)),其提升效果也是十分顯著。
      當然這也得益于Mozilla從18年6月宣布為了使Common Voice更具全球性和包容性。使用多語言支持,通過Common Voice網(wǎng)站和移動應用,短短8個月從22種語言開展數(shù)據(jù)收集到目前共有70多個語言的數(shù)據(jù)收集工作正在進行中。
      語音技術對于人工智能的重要性不言而喻,但無奈的是,目前語音技術資源的話語權卻牢牢的掌握在大型科技公司。
      首先目前行業(yè)內普遍認為語音將成為下一個重要的技術平臺,近年來隨著人工智能理論與技術的迅猛發(fā)展,語音識別技術在不斷突破,通過語音助手如Alexa、GoogleAssistant、Siri和Cortana,各公司將收集到的用戶語音數(shù)據(jù)歸為公司自己所有。
      其次這些數(shù)據(jù)的價值或許目前很難被外界看出來,但是在信息化高度發(fā)達,特別是今天這樣一個大數(shù)據(jù)和人工智能時代,為開發(fā)機器學習模型提供語音數(shù)據(jù)集怎么看都是一件有深遠意義的事,這些語音數(shù)據(jù)的意義會慢慢體現(xiàn)。而最終當它們的價值逐漸顯現(xiàn),人們會發(fā)現(xiàn)在這背后亞馬遜、谷歌、蘋果和微軟等公司已經(jīng)牢牢鎖住了語音技術的命門,主導了這場語音市場之爭。
      基于此CommonVoice項目就是為了避免這樣的事情而誕生的,它的目的是將收集到的語音數(shù)據(jù)集開源給公眾,使得任何人都可以自由使用這些數(shù)據(jù)集來將語音識別技術智能地構建到各種應用程序和服務中。
      Mozilla首席創(chuàng)新官Katharina Borchert表示:希望用戶使用自己的語言甚至方言的時候是可以被機器理解的,但是我們相信這些技術上的接口不應該由少數(shù)幾家公司控制,他們不能像守門員一樣來完全把控語音服務。
      CommonVoice項目的意義與用于打擊私人平臺的開放許可證項目類似,OpenStreetMap就是一個很好的例子。OpenStreetMap為開發(fā)者提供了開放且可自由使用的世界地圖,使得開發(fā)商不再需要依賴于GoogleMaps這樣的競爭對手,不僅降低了成本開銷,技術上也不再受到限制。
      總之,雖說目前CommonVoice相較于其他語音數(shù)據(jù)集還略有不足,比如在數(shù)量上,但是其綜合多樣性、豐富性和質量方面都遙遙領先,但這也給了我們一個想象空間,未來隨著時間的推移,其語料庫的不斷增加,CommonVoice的影響力也會與日俱增,到時候將會被全世界更大范圍內的開發(fā)者們所關注并受益。
      或許正如Mozilla所設想:未來語音技術的民主化不僅會降低全球創(chuàng)新的障礙,也會讓人們獲取信息更加便捷。
      地址:https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
    【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 贺州市| 康乐县| 甘洛县| 平武县| 福海县| 咸宁市| 黎平县| 锡林郭勒盟| 石渠县| 曲靖市| 紫阳县| 中卫市| 隆子县| 龙南县| 辽阳县| 民丰县| 基隆市| 宜都市| 马鞍山市| 遵义县| 彰武县| 石城县| 新郑市| 精河县| 阳城县| 易门县| 边坝县| 佛坪县| 晋中市| 桑日县| 分宜县| 望江县| 德惠市| 嘉黎县| 定安县| 亚东县| 济阳县| 秦安县| 亚东县| 嵊泗县| 斗六市| http://444 http://444 http://444 http://444 http://444 http://444