• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆

    2019-07-17 09:49:15   作者:   來(lái)源:語(yǔ)音雜談微信公眾號   評論:0  點(diǎn)擊:


      場(chǎng)景描述:語(yǔ)音合成解決的主要問(wèn)題就是如何將文字信息轉化為可聽(tīng)的聲音信息,涉及語(yǔ)言和語(yǔ)音兩部分。TTS技術(shù)(又稱(chēng)文語(yǔ)轉換技術(shù))隸屬于語(yǔ)音合成,它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。
      關(guān)鍵詞:多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆
      我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現對說(shuō)話(huà)者身份和未標記的語(yǔ)音屬性(如韻律)的控制。當使用language-dependent輸入表示或模型組件時(shí),特別是當每種語(yǔ)言的訓練數據量不平衡時(shí),擴展這些模型以支持多種不相關(guān)的語(yǔ)言并非易事。例如,在漢語(yǔ)和英語(yǔ)等語(yǔ)言之間的文本表示沒(méi)有重疊。此外,收集雙語(yǔ)者的錄音也很昂貴。因此,最常見(jiàn)的情況是訓練集中的每個(gè)說(shuō)話(huà)者只說(shuō)一種語(yǔ)言,所以說(shuō)話(huà)者的身份與語(yǔ)言是完全相關(guān)的。這使得在不同語(yǔ)言之間語(yǔ)音轉換變得困難。此外,對于外來(lái)詞或共享詞的語(yǔ)言,如西班牙語(yǔ)(ES)和英語(yǔ)(EN)中的專(zhuān)有名詞,同一文本的發(fā)音可能不同。當經(jīng)過(guò)簡(jiǎn)單訓練的模型有時(shí)為特定的說(shuō)話(huà)者生成重音時(shí),這就更加難以捉摸。
      針對以上問(wèn)題,最近學(xué)者們提出了一種基于Tacotron(中文語(yǔ)音合成)的多人多種語(yǔ)言文本到語(yǔ)音(TTS)的合成算法。
      這種算法能夠在多種語(yǔ)言中生成高質(zhì)量的語(yǔ)音。此外,模型是能夠跨語(yǔ)言傳遞聲音。模型結構采用基于注意力機制的序列到序列模型,根據輸入文本序列生成倒譜梅頻(log-mel,來(lái)自MFCC梅爾頻率倒譜系數)圖幀序列。
      該模型是通過(guò)使用音位輸入表示來(lái)設計的,以激勵跨語(yǔ)言的模型容量共享。它還包含了一個(gè)對抗性的損失,以幫助理清它的說(shuō)話(huà)者表示。通過(guò)對每種語(yǔ)言的多名使用者進(jìn)行訓練,加入自動(dòng)編碼輸入,并在訓練期間來(lái)幫助穩定注意力,從而進(jìn)一步擴大了訓練規模。
      經(jīng)過(guò)計算,實(shí)現了語(yǔ)音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角),這意味著(zhù)當說(shuō)話(huà)者的原始語(yǔ)言與嵌入的語(yǔ)言匹配時(shí),無(wú)論文本語(yǔ)言是什么,都會(huì )有很高的相似性。然而,使用文本中的語(yǔ)言ID(正方形),修改說(shuō)話(huà)者的口音使其能夠流利地說(shuō)話(huà),與母語(yǔ)和口音(圓形)相比,會(huì )損害相似性。
      該模型對三種語(yǔ)言的高質(zhì)量語(yǔ)音合成和語(yǔ)音訓練的跨語(yǔ)言傳輸具有重要的應用潛力。例如,不需要任何雙語(yǔ)或并行語(yǔ)言的訓練,它就能夠使用英語(yǔ)使用者的聲音合成流利的西班牙語(yǔ)。此外,該模型在學(xué)習說(shuō)外語(yǔ)的同時(shí)還會(huì )適量調節口音,并對代碼切換有基本的支持。
      在未來(lái)的工作中,學(xué)者們還將計劃研究擴大利用大量低質(zhì)量培訓數據的方法,并支持更多的使用者和語(yǔ)言。
      論文鏈接:https://arxiv.org/pdf/1907.04448.pdf
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 阜阳市| 突泉县| 司法| 城口县| 塔城市| 阳原县| 平陆县| 行唐县| 顺昌县| 汉源县| 镇雄县| 桓仁| 克什克腾旗| 诸城市| 康马县| 武清区| 灵山县| 蓬溪县| 枝江市| 黄梅县| 尚义县| 潼关县| 德阳市| 都昌县| 泽州县| 腾冲县| 东港市| 买车| 云梦县| 大姚县| 汾阳市| 奉节县| 西安市| 化德县| 盖州市| 苏尼特左旗| 瑞昌市| 闽侯县| 天全县| 光山县| 阳江市| http://444 http://444 http://444 http://444 http://444 http://444