Photo by Lukas from Pexels

　　語音技術的進步，讓機器合成的聲音不再頓挫、冰冷，在自然度和可懂度等方面取得了不錯的成績，但當前合成效果在合成音的表現(xiàn)力上，特別是語氣和情感方面，還存在不足。聲音如果缺少情感，何談表現(xiàn)力，又如何能提高用戶交互的意愿？本文由標貝科技聯(lián)合創(chuàng)始人兼CTO李秀林LiveVideoStack線上分享內(nèi)容整理而成。

　　文/李秀林

　　整理/LiveVideoStack

　　回放鏈接：https://www.livevideostack.cn/video/sillon/

　　大家好，我是標貝科技的李秀林，非常高興能與大家分享情感語音合成的事情。

　　在語音交互中語音識別、語音合成、語音理解是必不可少的環(huán)節(jié)。語音識別，也就是識別用戶說的話。識別完成后，系統(tǒng)需要理解用戶語言背后的含義，我們稱之為語義理解。理解到用戶的訴求后，需要尋找答案并給出響應。通常情況下，我們會首先得到一份文本形式的答案，然后再將文本通過語音合成，模仿人說話的形式反饋給用戶，這也就形成一輪完整的語音交互。

　　語音交互過程涉及語音合成，即把文字變成聲音，聲音是文字內(nèi)容的一個信息載體。語音交互是日常生活中最常見、最被人熟悉并樂于接受的展現(xiàn)形式，例如：人與人說話、看電視、聽收音機、與音響交互等等。體驗效果的好壞，會對用戶的感知造成很大影響。如果語音合成質(zhì)量較好，說話效果更接近真人，且情感表達豐富，那么用戶的交互意愿自然也會更強，用戶會覺得這不是一個冷冰冰的機器，會有愿意與這類智能體進一步交互。

　　這段小視頻是疫情初期我們的合作伙伴利用語音合成技術生成的。從視頻中大家可以明顯感受到：我們可以從聲音當中獲取充分的信息，也就是信息的傳達作用是完全沒有問題的。但也同樣存在一個問題，即聲音相對來說比較平淡，聲音更多的是作為一個信息載體，而不是作為一個表達的載體。

　　接下來會和大家一同探討語音合成和情感語音合成的技術難點與實現(xiàn)，以及將來語音合成的發(fā)展和應用場景。

　　01 語音合成的發(fā)展

　　語音合成的歷史可以說是相當悠久。最初，實際上是通過類似于鋼琴一樣的設備來彈奏，能夠發(fā)出幾個聲音，大家就已經(jīng)覺得非常厲害。隨著計算機技術的發(fā)展，從80年代到90年代再到現(xiàn)階段，技術的迭代更新也越來越快。

　　90年代，計算機已經(jīng)可以支持幾百兆甚至上G的內(nèi)存，硬盤也足以支持幾十G的內(nèi)存，能夠?qū)崿F(xiàn)存儲大量的數(shù)據(jù)并進行較為復雜的處理。上圖展示的系統(tǒng)框架就是在這一階段產(chǎn)生的，并且直到前幾年還有很多商務系統(tǒng)仍舊使用這套框架。

　　在框架中，訓練階段我們會針對音庫的數(shù)據(jù)以及對應的標注文本進行建模（包括基頻的提取、譜特征提取，以及時長提取等），訓練成時長模型、基頻模型、譜模型等。合成階段則存在拼接合成、參數(shù)合成兩種主流的方案。

　　拼接合成：用戶輸入的文本將通過文本分析，并結(jié)合訓練好的模型生成對應參數(shù)。該參數(shù)可以指導拼接系統(tǒng)進行單元挑選。所謂單元挑選，即從之前錄制好的音庫片段中挑選最合適的部分，將其拼接起來，使得整個聲音更加流暢，接近于真人。單元挑選的優(yōu)點是音質(zhì)還原度非常好，而缺點是其音級單元之間有時會產(chǎn)生一些跳躍和不連貫，通常表現(xiàn)為在聽感上會感覺有些地方不流暢、不舒服。

　　參數(shù)合成：即不使用原始的聲音片段，通過聲碼器對聲學參數(shù)進行轉(zhuǎn)換，生成聲音。這種方案由于其統(tǒng)計特性、以及聲碼器性能的影響，在音質(zhì)方面會相對弱一些。

　　近些年，隨著神經(jīng)網(wǎng)絡技術的發(fā)展，統(tǒng)計模型方面受到很大影響。之前許多基于高斯混合模型的統(tǒng)計，我們可以直接通過神經(jīng)網(wǎng)絡模型來實現(xiàn)。當前階段我們將它命名為—自學習階段。

　　神經(jīng)網(wǎng)絡具有很強的自我學習能力，有非常多的權重，可以通過數(shù)據(jù)，學習到許多連專家都難以總結(jié)出來的特點。因此，當前階段大家會更多的選擇使用神經(jīng)網(wǎng)絡。

　　2016年，WaveNet的出現(xiàn)徹底改變了聲音生成的方式，它將逐幀生成，即以幀為單位的聲音生成變成了逐點生成波形。所帶來的好處是聲音還原度變得非常高，在一定程度上可以說是接近于原始聲音。盡管其仍存在計算量復雜的缺點，但此缺點在近兩年也已通過一系列的改造，例如并行的WaveNet等等，逐漸變得可以接受，同時優(yōu)勢的體現(xiàn)也越來越充分。

　　2017年，Tacotron以及后續(xù)Tacotron2等一系列的變體，為我們提供了一種端到端的語音合成方式。端到端雖然更多的是一個學術概念，但就整體系統(tǒng)來說是非常漂亮的。它利用核心的Attention機制，將輸入和輸出之間的關聯(lián)度，通過模型很好的表述出來。在此之前我們通常是先做一個時長模型，然后再做其它譜模型、基頻的模型，而通過端到端的模型，我們就可以跳過時長模型，直接針對整句話進行建模。Tacotron的出現(xiàn)，對于合成語音的韻律，節(jié)奏方面都有很大的提升（更接近真人）。

　　2018年，大家將兩種網(wǎng)絡結(jié)合在一起，即將端到端與神經(jīng)網(wǎng)絡的聲碼器結(jié)合形成一個更逼真的語音合成系統(tǒng)。并且對Attention的結(jié)構(gòu)也進行了一些改造，使得系統(tǒng)整體性能更優(yōu)。所以在2018年以后，我們所見到的語音合成系統(tǒng)大多是基于Tacotron或Tacotron2實現(xiàn)。

　　02 情感合成

　　2.1情感合成是什么？

　　以上簡單介紹了語音合成近些年的一些變化，那么為什么在經(jīng)歷了這一系列變化后，大家覺得還是不夠？一般來說合成的數(shù)據(jù)我們都會考慮追求平穩(wěn)，因此在情感和表達方面也就不會太豐富。但近些年大家對情感合成以及個性化合成的興趣與需求越來越高。

　　關于情感合成，我們可以想象一下，假如我們在和機器交流時能夠像和一個真正的人交談一樣，它可以用平淡的聲音、高興的聲音、悲傷的聲音，甚至不同的情感有不同的強度，比如說微微有點不高興、非常不高興、非常憤怒。那么可想而知這種場景會給我們的生活帶來多大改變。

　　情感合成作為一項技術，當然也離不開神經(jīng)網(wǎng)絡的三要素：算法、算力和數(shù)據(jù)。而對于語音合成領域來說，算力實際上是不太重要的，我們可以通過一些GPU的卡來解決算力的問題，因此需要我們重點關注的是算法和數(shù)據(jù)的問題。

　　情感合成的算法在最初使用HTS技術時，已經(jīng)有很多學者進行過一些探索。但是由于模型的描述能力，以及模型本身自學習能力較弱，實用性會差一些。

　　2.2情感標簽的使用

　　大家可以發(fā)現(xiàn)，在有了神經(jīng)網(wǎng)絡之后，目前情感合成的方案基本上都是在一個很好的框架之上來進行一些不同的改造，下面簡單介紹幾種不同的解決方案。

　　在這篇端到端的情感合成的文章里，提到用情感做標簽（在原有網(wǎng)絡基礎上增加一個情感標簽），通過一個prenet把這些信息引入到Attention的decoder中。這樣情感的信息自然會通過網(wǎng)絡得到一定的學習，在合成的時候，如果能賦予合適的情感標簽，也就能合成出有一定情感表達力的聲音。

　　2.3情感合成的實現(xiàn)

　　2.3.1說話人嵌入的使用

　　除情感標簽之外，比如說這篇文章，提到用說話人入嵌Encoder的方式。也就是將說話人的聲音特征，通過編碼器得到speakerembedding，并將其結(jié)合到Attention的網(wǎng)絡中，實現(xiàn)不同說話人聲音合成的效果。

　　我們其實可以從另外一個角度考慮，情感是什么？或者不同的變化是什么？它可以是情感本身、不同說話人、以及語言風格等等。所以上述說話人嵌入的方式，其實對整個情感合成也會有一定的借鑒作用。

　　2.3.2風格嵌入的使用

　　這篇文章介紹的是通過一個稍微復雜些的子網(wǎng)絡實現(xiàn)風格的嵌入，其整體核心框架也同樣是Tacotron系列。方法是在子網(wǎng)絡中構(gòu)建一個風格的分類，在進行風格分類embedding之后，與之前文本的encoder結(jié)果一同加入到網(wǎng)絡當中去。在推理的時候，通過風格的控制來改變整體合成的效果。

　　2.3.3聲學特征&說話人嵌入的使用

　　這篇文章也是類似的思路，除文本特征之外，再通過lookuptable來做說話人的嵌入，通過譜的片段進行韻律的嵌入，最后將三種嵌入合成起來，作為影響整個系統(tǒng)的控制因素。

　　2.3.4VAE的使用

　　除了上述提到的情感嵌入、說話人嵌入、風格嵌入之外，還有一種VAE的方法。它將譜的特征通過一個唯一的網(wǎng)絡—子網(wǎng)，在學習到特征之后，與文本特征一同輸入到Attention的網(wǎng)絡（在這里選擇的是Tacotron2的網(wǎng)絡）。

　　綜上可知我們的網(wǎng)絡主體基本上是一個Attention機制的網(wǎng)絡（如Tacotron或Tacotron2），在這個主體之上，我們會加入一些特征，這個特征可以是各種各樣的標簽作為輸入。也就相當于把風格、情感等變量單一或者組合使用，引入到整個系統(tǒng)當中。

　　以上就是當前可以看到的文獻中出現(xiàn)的一些情感合成方案。

　　2.3.5情感合成數(shù)據(jù)

　　數(shù)據(jù)是另外一個制約系統(tǒng)整體表現(xiàn)力的因素，在情感合成數(shù)據(jù)方面，我們面臨著很多的問題。

　　比如我們需要數(shù)據(jù)有情感表現(xiàn)力，所謂情感表現(xiàn)力是指在聽到一段聲音后，能夠明顯感知到說話人是高興的、生氣的、還是憂傷的，這也是我們現(xiàn)階段希望能夠解決的一個問題。還有就是情感控制，說話人情感表現(xiàn)的程度，有的比較輕微，有的是比較強烈，我們做數(shù)據(jù)的時候，應該選擇哪一種？前景網(wǎng)絡如果情感過于強烈，并且波動范圍很大的話，對于建模的要求就會非常高。那么我們就希望能夠在數(shù)據(jù)層面，對情感的控制有一個度量。

　　第三點，也就是數(shù)據(jù)的規(guī)模，我們知道對于神經(jīng)網(wǎng)絡來說，數(shù)據(jù)規(guī)模越大，則整體效果越好，當然這是一個理想的情況。而現(xiàn)實是，我們在對情感表現(xiàn)力和情感控制方面要求比較嚴格時，往往只能采用同一個人的不同情感聲音數(shù)據(jù)，那么數(shù)據(jù)規(guī)模本身就會受到一定限制，因此數(shù)據(jù)規(guī)模也是制約情感合成技術發(fā)展的一個關鍵點。

　　接下來介紹下我們所做的一些工作，標貝科技專注于提供人工智能數(shù)據(jù)的服務，同時也提供高音質(zhì)，多場景，多類別語音合成的整體解決方案。我們希望在做高質(zhì)量語音合成數(shù)據(jù)的同時，能夠為中小型企業(yè)提供更多優(yōu)質(zhì)的解決方案，幫助解決他們的問題。

　　同樣，我們也希望能夠為整個語音行業(yè)提供一些基礎的數(shù)據(jù)支持。比如2017年，我們就將一個10000句話規(guī)模的高質(zhì)量語音合成庫共享給了整個行業(yè)進行學術研究，希望能夠跟大家一起將語音技術做的越來越好。

　　在數(shù)據(jù)方面，我們擁有包括識別自有庫，合成自有庫，歌曲音庫、明星IP音庫、以及方言音庫等在內(nèi)的多種不同類型的語音數(shù)據(jù)庫，語音數(shù)據(jù)時長累計超過十萬小時，這些數(shù)據(jù)有很多也應用到了我們的情感合成實踐當中。

　　03 標貝科技情感合成實踐

　　在情感合成實踐當中，我們主要應用到了三類數(shù)據(jù)。

　　第一類是多人的數(shù)據(jù)庫，規(guī)模并不是特別大，在使用時大概是100人左右的規(guī)模。這100人里，每個人會說500句話，其中300句話是相同的，200句話是不同的。在不同人之間，實際上也會有一些共性的東西，有一些不同的東西。在發(fā)言人方面，覆蓋了從兒童、青年、老年等不同年齡段，這樣做的好處是它可以讓我們學習到不同年齡段人說話的特點。這些特點可能是受說話人自己的知識背景、生活環(huán)境影響，或者是生理因素（比如聲帶的發(fā)育階段，聲帶的老化情況等）影響而形成。

　　第二類數(shù)據(jù)，用到了一些中大規(guī)模的合成數(shù)據(jù)庫。這些數(shù)據(jù)庫有的是男生的、有的是女生的，數(shù)據(jù)規(guī)模比多人數(shù)據(jù)庫要大很多，基本上都是幾千句的，幾萬句的規(guī)模。

　　第三類數(shù)據(jù)庫是情感數(shù)據(jù)庫。情感數(shù)據(jù)庫中包含六種情感形式，悲傷、憤怒、驚訝、恐懼、喜悅和厭惡。除此之外，還包括同說話人的中性聲音，即不帶情感比較平穩(wěn)的聲音。所以實際上這個情感數(shù)據(jù)庫，包括六種情感和一種中性的聲音，七種聲音都是同一個發(fā)音人。

　　上述三類數(shù)據(jù)的用途各不相同:100人數(shù)據(jù)庫，主要用來做說話人嵌入的網(wǎng)絡。假如我們通過一個神經(jīng)網(wǎng)絡來刻畫每個人，用向量表示的話應該是什么樣？在這里我們用了一個神經(jīng)網(wǎng)絡來專門做說話人嵌入的向量訓練。

　　第二個階段，中大規(guī)模的數(shù)據(jù)庫做平均模型。我們將說話人的嵌入與數(shù)據(jù)結(jié)合起來，做了一個平均模型。因為輸入的文本和發(fā)音之間有一定的對應關系，所以平均模型相對來說比較穩(wěn)定。

　　最后，我們就可以利用情感數(shù)據(jù)庫結(jié)合平均模型，實現(xiàn)情感語音合成的模型。

　　標貝科技情感合成實踐音頻

　　這是一個情感合成的樣音，不同的情感是存在明顯差別的，我們能從聲音里感受到情感的變化。這里我們并沒有采用WaveNet或者復雜度比較高的聲碼器，因為我們想做的是一個能夠在線上提供大規(guī)模并發(fā)服務的系統(tǒng)，所以選擇的是LPCNet，在音質(zhì)方面還不是最好的。

　　隨著情感合成技術的發(fā)展，接下來還會有哪些應用場景？例如剛才聽到的語音故事，我們就可以將它應用到有聲讀物上。還有就是語音助手，近年來隨著NLP技術的發(fā)展，語音助手開始逐漸走進大家的生活中，幫助人們完成一些簡單的工作。虛擬形象近年來發(fā)展的也比較好，例如虛擬主持人、虛擬歌手、虛擬的形象，能夠具有一定的情感表現(xiàn)能力。

　　除此之外，抖音、快手等UGC創(chuàng)作平臺，其中不乏有意思的故事、視頻，但部分內(nèi)容配音需要找一些專業(yè)的人員錄制，很多內(nèi)容創(chuàng)作者并沒有這個條件。最近我們發(fā)現(xiàn)有許多創(chuàng)作者開始將語音合成（成本更低）結(jié)合到內(nèi)容創(chuàng)作中，讓內(nèi)容變得更加生動、有趣。

　　那么更進一步，例如游戲和影視動畫等領域，在具有一定情感表達能力后，對于一些非實時的產(chǎn)品，我們可以通過WaveNet的高質(zhì)量生成器合成更高質(zhì)量的語音內(nèi)容，同樣具有一定潛力。

　　04 情感合成技術展望

　　但在進行這些場景的廣泛應用之前，我們還需要解決如下問題：

　　首先是NLP相關的問題，例如我們想要表達一個情感，需要知道這個情感是什么，不能用高興的聲音去說一件悲哀的事情，反之亦然。這就需要NLP有非常準確的情感分析與表達能力，不是60%、70%，我們希望至少是90%及以上，這樣用戶的接受度才會更好。

　　同樣，剛剛提到的有聲讀物。例如一本小說，小說里的角色眾多，如果每個人用不同的聲音去表現(xiàn)，每個人又都有其自己的感情，那這本小說就可以通過聽的方式表現(xiàn)的活靈活現(xiàn)，這也就要求NLP具有更高的角色分析能力。

　　還有涉及到語音合成的挑戰(zhàn)：不同說話人之間的情感遷移，例如對于沒有情感的聲音，可不可以通過一些類比或者遷移技術，把別人的情感和非情感的差異，在一個沒有情感數(shù)據(jù)的聲音上進行呈現(xiàn)；小數(shù)據(jù)量的個性化情感合成，我們前段時間推出了標貝留聲機的一個小數(shù)據(jù)的個性化合成，這里面并沒有涉及到情感。如果我們還是在這個數(shù)據(jù)規(guī)模下，每種情感加上一句話，是不是可以實現(xiàn)？

　　涉及到交互，如果想讓其更有深度，我們是不是能夠感知到與機器進行交互的人的情感。比如現(xiàn)在的一些心靈電臺等，有些人遇到挫折、困難的時候跟他聊聊天，講個故事安慰一下，我覺得對社會來說是一件非常有意義的事情。

　　另外就是聲音和形象的組合，例如我們現(xiàn)在看到的虛擬形象，在口型與聲音對應一致性上，已經(jīng)有明顯的進步，甚至已經(jīng)能夠完成一些虛擬動作的實現(xiàn)。如果能夠加上有情感的聲音以及有表現(xiàn)力的表情，就可以應用到影視、動畫等這些高難度的場景了。

　　所以，在情感合成方面，實際上我們只是進行了一些初步的探索，距離實現(xiàn)大范圍的快速、廣泛應用，仍需繼續(xù)努力。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

情感語音合成技術難點突破與未來展望

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)