關(guān)鍵詞:多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆
我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現對說(shuō)話(huà)者身份和未標記的語(yǔ)音屬性(如韻律)的控制。當使用language-dependent輸入表示或模型組件時(shí),特別是當每種語(yǔ)言的訓練數據量不平衡時(shí),擴展這些模型以支持多種不相關(guān)的語(yǔ)言并非易事。例如,在漢語(yǔ)和英語(yǔ)等語(yǔ)言之間的文本表示沒(méi)有重疊。此外,收集雙語(yǔ)者的錄音也很昂貴。因此,最常見(jiàn)的情況是訓練集中的每個(gè)說(shuō)話(huà)者只說(shuō)一種語(yǔ)言,所以說(shuō)話(huà)者的身份與語(yǔ)言是完全相關(guān)的。這使得在不同語(yǔ)言之間語(yǔ)音轉換變得困難。此外,對于外來(lái)詞或共享詞的語(yǔ)言,如西班牙語(yǔ)(ES)和英語(yǔ)(EN)中的專(zhuān)有名詞,同一文本的發(fā)音可能不同。當經(jīng)過(guò)簡(jiǎn)單訓練的模型有時(shí)為特定的說(shuō)話(huà)者生成重音時(shí),這就更加難以捉摸。
針對以上問(wèn)題,最近學(xué)者們提出了一種基于Tacotron(中文語(yǔ)音合成)的多人多種語(yǔ)言文本到語(yǔ)音(TTS)的合成算法。
這種算法能夠在多種語(yǔ)言中生成高質(zhì)量的語(yǔ)音。此外,模型是能夠跨語(yǔ)言傳遞聲音。模型結構采用基于注意力機制的序列到序列模型,根據輸入文本序列生成倒譜梅頻(log-mel,來(lái)自MFCC梅爾頻率倒譜系數)圖幀序列。

該模型是通過(guò)使用音位輸入表示來(lái)設計的,以激勵跨語(yǔ)言的模型容量共享。它還包含了一個(gè)對抗性的損失,以幫助理清它的說(shuō)話(huà)者表示。通過(guò)對每種語(yǔ)言的多名使用者進(jìn)行訓練,加入自動(dòng)編碼輸入,并在訓練期間來(lái)幫助穩定注意力,從而進(jìn)一步擴大了訓練規模。

經(jīng)過(guò)計算,實(shí)現了語(yǔ)音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角),這意味著(zhù)當說(shuō)話(huà)者的原始語(yǔ)言與嵌入的語(yǔ)言匹配時(shí),無(wú)論文本語(yǔ)言是什么,都會(huì )有很高的相似性。然而,使用文本中的語(yǔ)言ID(正方形),修改說(shuō)話(huà)者的口音使其能夠流利地說(shuō)話(huà),與母語(yǔ)和口音(圓形)相比,會(huì )損害相似性。
該模型對三種語(yǔ)言的高質(zhì)量語(yǔ)音合成和語(yǔ)音訓練的跨語(yǔ)言傳輸具有重要的應用潛力。例如,不需要任何雙語(yǔ)或并行語(yǔ)言的訓練,它就能夠使用英語(yǔ)使用者的聲音合成流利的西班牙語(yǔ)。此外,該模型在學(xué)習說(shuō)外語(yǔ)的同時(shí)還會(huì )適量調節口音,并對代碼切換有基本的支持。
在未來(lái)的工作中,學(xué)者們還將計劃研究擴大利用大量低質(zhì)量培訓數據的方法,并支持更多的使用者和語(yǔ)言。
論文鏈接:https://arxiv.org/pdf/1907.04448.pdf