場景描述：語音合成解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息，涉及語言和語音兩部分。TTS技術(shù)（又稱文語轉(zhuǎn)換技術(shù)）隸屬于語音合成，它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚�、流利的漢語口語輸出的技術(shù)。

　　關(guān)鍵詞：多語言語音合成和跨語言語音克隆

　　我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現(xiàn)對(duì)說話者身份和未標(biāo)記的語音屬性(如韻律)的控制。當(dāng)使用language-dependent輸入表示或模型組件時(shí)，特別是當(dāng)每種語言的訓(xùn)練數(shù)據(jù)量不平衡時(shí)，擴(kuò)展這些模型以支持多種不相關(guān)的語言并非易事。例如，在漢語和英語等語言之間的文本表示沒有重疊。此外，收集雙語者的錄音也很昂貴。因此，最常見的情況是訓(xùn)練集中的每個(gè)說話者只說一種語言，所以說話者的身份與語言是完全相關(guān)的。這使得在不同語言之間語音轉(zhuǎn)換變得困難。此外，對(duì)于外來詞或共享詞的語言，如西班牙語(ES)和英語(EN)中的專有名詞，同一文本的發(fā)音可能不同。當(dāng)經(jīng)過簡單訓(xùn)練的模型有時(shí)為特定的說話者生成重音時(shí)，這就更加難以捉摸。

　　針對(duì)以上問題，最近學(xué)者們提出了一種基于Tacotron（中文語音合成）的多人多種語言文本到語音(TTS)的合成算法。

　　這種算法能夠在多種語言中生成高質(zhì)量的語音。此外，模型是能夠跨語言傳遞聲音。模型結(jié)構(gòu)采用基于注意力機(jī)制的序列到序列模型，根據(jù)輸入文本序列生成倒譜梅頻（log-mel，來自MFCC梅爾頻率倒譜系數(shù)）圖幀序列。

　　該模型是通過使用音位輸入表示來設(shè)計(jì)的，以激勵(lì)跨語言的模型容量共享。它還包含了一個(gè)對(duì)抗性的損失，以幫助理清它的說話者表示。通過對(duì)每種語言的多名使用者進(jìn)行訓(xùn)練，加入自動(dòng)編碼輸入，并在訓(xùn)練期間來幫助穩(wěn)定注意力，從而進(jìn)一步擴(kuò)大了訓(xùn)練規(guī)模。

　　經(jīng)過計(jì)算，實(shí)現(xiàn)了語音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角)，這意味著當(dāng)說話者的原始語言與嵌入的語言匹配時(shí)，無論文本語言是什么，都會(huì)有很高的相似性。然而，使用文本中的語言ID(正方形)，修改說話者的口音使其能夠流利地說話，與母語和口音(圓形)相比，會(huì)損害相似性。

　　該模型對(duì)三種語言的高質(zhì)量語音合成和語音訓(xùn)練的跨語言傳輸具有重要的應(yīng)用潛力。例如，不需要任何雙語或并行語言的訓(xùn)練，它就能夠使用英語使用者的聲音合成流利的西班牙語。此外，該模型在學(xué)習(xí)說外語的同時(shí)還會(huì)適量調(diào)節(jié)口音，并對(duì)代碼切換有基本的支持。

　　在未來的工作中，學(xué)者們還將計(jì)劃研究擴(kuò)大利用大量低質(zhì)量培訓(xùn)數(shù)據(jù)的方法，并支持更多的使用者和語言。

　　論文鏈接：https://arxiv.org/pdf/1907.04448.pdf

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

多語言語音合成和跨語言語音克隆

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)