• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    INTERSPEECH2021喜訊 | 標貝科技語(yǔ)音論文連續3屆收錄于全頂語(yǔ)音大會(huì )

    2021-06-08 17:18:26   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      6月8日消息,2021全球頂級語(yǔ)音大會(huì )INTERSPEECH論文投稿收錄結果于日前重磅揭曉。標貝科技語(yǔ)音技術(shù)團隊投遞的語(yǔ)音論文《PDF:Polyphone Disambiguation by Using FLAT》
      (譯為《基于FLAT的多音字消歧系統》,以下簡(jiǎn)稱(chēng)“論文”)受到國際學(xué)者專(zhuān)業(yè)認可,成功收錄其中。據了解,這也是繼2019和2020兩屆大會(huì )入選后,標貝語(yǔ)音論文第三次被大會(huì )成功收錄,彰顯不俗的語(yǔ)音科研實(shí)力。
      一年一度的INTERSPEECH是全球最具影響力的語(yǔ)音行業(yè)大會(huì ),而語(yǔ)音論文彰顯大會(huì )國際化、專(zhuān)業(yè)化、前沿化的特點(diǎn),吸引全球數以千計的科研機構、高校及廠(chǎng)商關(guān)注,踴躍參與論文撰寫(xiě)和投遞,共同見(jiàn)證行業(yè)蓬勃發(fā)展。
      本次標貝科技投遞的“論文”,研究重點(diǎn)為在多音字消歧的系統中引入了FLAT的模型結構。經(jīng)過(guò)研究表明,在建模過(guò)程中,句子中多音字字符可以有效與所有的匹配詞匯進(jìn)行交互,緩解了TTS系統在合成語(yǔ)音時(shí),因分詞錯誤導致的多音字發(fā)音錯誤的問(wèn)題。此外,該模型還引入了中文發(fā)音詞典的信息,賦予帶多音字字符的詞匯中目標多音字的正確發(fā)音,由此降低了多音字消歧系統的建模難度以及提升了多音字消歧系統的預測準確率。該模型還引入了中文預訓練語(yǔ)言模型,通過(guò)使用了動(dòng)態(tài)詞向量,加強了句子中字符的表征能力,進(jìn)一步提升了模型性能。
      取得以上成績(jì),與標貝專(zhuān)業(yè)、先進(jìn)的研發(fā)技術(shù)整體綜合實(shí)力密不可分。標貝科技自成立以來(lái),把AI技術(shù)創(chuàng )新應用放在首位,以“語(yǔ)音連接場(chǎng)景、數據服務(wù)技術(shù)”為理念,在技術(shù)、數據及應用三端不斷創(chuàng )新,確保在語(yǔ)音和數據領(lǐng)域的領(lǐng)先地位。
      在語(yǔ)音合成方面,標貝科技語(yǔ)音技術(shù)路徑經(jīng)歷重要的三個(gè)階段,無(wú)論是在場(chǎng)景落地還是技術(shù)演化方面,均有巨大突破。
      1.0階段注意力機制深度學(xué)習首次商用
      為了提高語(yǔ)音合成的自然流暢度,標貝科技的語(yǔ)音合成技術(shù)在聲學(xué)、韻律上采用了基于A(yíng)ttention機制的深度神經(jīng)網(wǎng)絡(luò )技術(shù)模型,充分利用文本數據,構建前端模塊、選擇合適的聲碼器,降低運算量,實(shí)現合成語(yǔ)音的發(fā)音自然、清晰、韻律感流暢,讓機器與人的互動(dòng)顯得更親近。
      2.0階段音色擴展個(gè)性化合成
      為了滿(mǎn)足不同場(chǎng)景的需求,標貝科技在音色和場(chǎng)景豐富度上持續發(fā)力。基于海量語(yǔ)音數據的優(yōu)勢,對音色庫進(jìn)行充分擴充,推出支持不同年齡、性別、以及語(yǔ)種的多類(lèi)型音色的TTS2.0解決方案,并支持用戶(hù)個(gè)性化需求定制,滿(mǎn)足了多場(chǎng)景及多業(yè)務(wù)的需求。
      語(yǔ)音技術(shù)方面,標貝打造了支持聲音復刻、情感合成等個(gè)性化、差異化的語(yǔ)音技術(shù)服務(wù)。聲音復刻與情感合成是基于語(yǔ)音技術(shù)本身的創(chuàng )新型應用。通過(guò)復刻聲音,為聲音注入豐富的情感,深度挖掘合成語(yǔ)音的個(gè)性化、定制化價(jià)值,更好的匹配有聲閱讀、AI教育等應用場(chǎng)景。
      3.0階段深度學(xué)習框架升級,更有表現力更自然的聲音
      2021年開(kāi)年,標貝推出了全新升級的TTS3.0技術(shù)采用全新的Transformer機制和GAN聲碼器,升級了全新的模型結構的基礎上,依舊保持了對tts2.0舊模型的全部兼容,最大程度地保證無(wú)縫升級。同時(shí),新系統使用了高維度的聲學(xué)信息,可以承載更多的聲音細節,顯著(zhù)提升了現有發(fā)音效果。無(wú)論是自然講話(huà)、情緒講話(huà)、還是角色模仿,都大大提升了多場(chǎng)景下角色和情感表達判斷的精確性,同時(shí)保障了輸出音質(zhì)的穩定、清晰、順暢,聲碼器采用GAN結構,不但高效且真實(shí)的還原了波形,同時(shí)為合成聲音注入了真實(shí)質(zhì)感。
      在場(chǎng)景方面,標貝科技基于技術(shù)優(yōu)勢的基礎上,打造能夠覆蓋多場(chǎng)景應用的語(yǔ)音交互方案,包括語(yǔ)音合成、語(yǔ)音識別、聲音復刻、情感合成以及聲音轉換在內的語(yǔ)音技術(shù)產(chǎn)品,以有溫度的聲音,提升用戶(hù)交互體驗。
      值得一提的是,數據為AI應用落地提供堅實(shí)基礎。而標貝科技致力于為企業(yè)提供專(zhuān)業(yè)、高質(zhì)量的語(yǔ)音數據服務(wù)。
      在采標能力上,標貝科技基于深度學(xué)習以及高精度預處理技術(shù),擁有多語(yǔ)言多類(lèi)型數據采集制作能力、語(yǔ)音合成技術(shù)建模和測試需要的深度標注加工和分析處理等數據服務(wù)。
      其中,數據采集方面,標貝科技可根據客戶(hù)定制化需求,對各類(lèi)規定文本、指定圖片,各種環(huán)境下的語(yǔ)音、視頻進(jìn)行采集;采集過(guò)程中可實(shí)現對其內容的篩選、文本化等相關(guān)任務(wù)。
      而數據標注方面,在語(yǔ)音方面,支持ASR語(yǔ)音轉寫(xiě)、音素標注、語(yǔ)音清洗、聲紋識別標注、語(yǔ)音切割、情緒判定等;在自然語(yǔ)言處理方面,支持OCR轉寫(xiě)、文本信息抽取、文本富集、詞性標注、槽位提取等;在計算機視覺(jué)方面,支持圖片清洗分類(lèi)、關(guān)鍵點(diǎn)標注、3D點(diǎn)云標注、圖像語(yǔ)義分割、目標跟蹤等。
      隨著(zhù)技術(shù)不斷進(jìn)步,將會(huì )有越來(lái)越多的語(yǔ)音技術(shù)產(chǎn)品出現在人們生活和工作之中。未來(lái),標貝科技將加大研發(fā)投入力度,與學(xué)術(shù)界和工業(yè)界保持緊密合作,攜手共同推動(dòng)語(yǔ)音產(chǎn)業(yè)的發(fā)展。
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 北碚区| 嘉兴市| 双柏县| 迁西县| 安庆市| 墨玉县| 大邑县| 图木舒克市| 新余市| 武定县| 四子王旗| 长顺县| 科技| 舒兰市| 泸定县| 科尔| 阿拉善左旗| 江山市| 昌邑市| 安化县| 扶沟县| 蒲江县| 句容市| 巴彦县| 游戏| 屏东县| 长武县| 张掖市| 车致| 渝中区| 安义县| 合肥市| 区。| 宁陵县| 布尔津县| 临武县| 新闻| 新竹县| 拜泉县| 星子县| 新野县| http://444 http://444 http://444 http://444 http://444 http://444