
AIoT正在成為科技公司們爭搶的下一座城池。
2016年開(kāi)始,智能手機行業(yè)紅利開(kāi)始見(jiàn)頂,手機廠(chǎng)商可爭奪的存量市場(chǎng)不斷被壓縮,這時(shí),硬件領(lǐng)域的新機會(huì )延伸到了智能音箱、智能家電,以及可穿戴設備。智能硬件也相應地成為互聯(lián)網(wǎng)的新入口,國內外多家巨頭已早早開(kāi)始爭奪這部分還未被完全挖掘的用戶(hù)入口。
其中,語(yǔ)音識別及語(yǔ)音交互毫無(wú)疑問(wèn)是各智能硬件最重要的控制手段之一,同時(shí)也是人工智能技術(shù)到目前為止落地最快的應用之一。
以智能音箱為例,僅2018年四季度,全球智能音箱出貨量增長(cháng)95%達到3850萬(wàn)臺,超過(guò)2017全年總量。2018年出貨量更是達到8620萬(wàn)臺,同比增長(cháng)100%以上。Strategy Analytics預測,2019年全球智能音箱的出貨量將超過(guò)1.34億,到2024年將增加到2.8億。
搜狐科技“智研所”沙龍第6期邀請到標貝科技CTO李秀林進(jìn)行主題演講——《語(yǔ)音合成—引爆智能語(yǔ)音交互的導火索》
以下是演講精編:
李秀林:大家好,非常高興通過(guò)搜狐科技與大家溝通語(yǔ)音合成的一個(gè)主題,那么今天我與大家分享的題目是“語(yǔ)音合成引爆智能語(yǔ)音交互的導火索”。

(智研所現場(chǎng))
首先做一下自我介紹,我叫李秀林,中國科學(xué)院聲學(xué)所博士,標貝科技聯(lián)合創(chuàng )始人兼CTO,負責整體語(yǔ)音技術(shù)框架。之前十幾年我基本都是在語(yǔ)音行業(yè),之前在百度、滴滴都是主要從事語(yǔ)音相關(guān)的研究工作以及探索在出行互聯(lián)網(wǎng)行業(yè)不同的應用。
給大家介紹一下標貝科技,是一家專(zhuān)注于智能語(yǔ)音合成和數據服務(wù)的人工智能公司,這家公司依托自己自有的高質(zhì)量的數據來(lái)開(kāi)發(fā)自有的高品質(zhì)的語(yǔ)音合成系統。我們可以提供多場(chǎng)景、多類(lèi)別的高品質(zhì)語(yǔ)音合成解決方案,在我們的解決方案當中我們會(huì )結合用戶(hù)的需求和我們的技術(shù)去為用戶(hù)量身定制他所需要的聲音。
我們先來(lái)看一下整個(gè)語(yǔ)音交互的市場(chǎng),根據前瞻經(jīng)濟學(xué)人的數據表明,近些年語(yǔ)音行業(yè)的發(fā)展非常快速,在2019年中國智能語(yǔ)音市場(chǎng)規模將突破200億元,2023年預計將達到600多億元,這個(gè)市場(chǎng)發(fā)展是非常迅速的,這也可以從一個(gè)側面反映出語(yǔ)音行業(yè)的火爆程度。語(yǔ)音交互是由三個(gè)主要的環(huán)節組成的,一個(gè)是語(yǔ)音合成,一個(gè)是語(yǔ)音識別,那么連接起來(lái)的是語(yǔ)義理解。通過(guò)這三項技術(shù)就可以讓我們的硬件設備有會(huì )聽(tīng)、會(huì )說(shuō)、會(huì )思考,具備與人交互的能力,去滿(mǎn)足一些真實(shí)的場(chǎng)景,實(shí)現AI技術(shù)的真正落地。
大家從樣音可以聽(tīng)到,其實(shí)我們提供了不同的聲音,有不同的特點(diǎn),可以為用戶(hù)去匹配不同的聲音,這也是我們這幾年所做的所思的所想的。
再下面介紹一個(gè)案例,為央視財經(jīng)頻道所做的工作,我們提供了兩個(gè)聲音,其中一個(gè)在交易時(shí)間時(shí)段的“曉鯨”智能機器人,實(shí)際上從它的形象來(lái)看應該是一個(gè)小孩的形象,可能比較活潑,我們結合這個(gè)產(chǎn)品的特點(diǎn)定制了一個(gè)小孩的聲音。此外,主持人的聲音或者是她的時(shí)間非常有限,我們專(zhuān)門(mén)為著(zhù)名的主持人李雨霏打造了她自己的聲音,也是上線(xiàn)了對應的產(chǎn)品。
(央視財經(jīng)-《交易時(shí)間》欄目節選)
通過(guò)這些展示其實(shí)我們想陳述一個(gè)觀(guān)點(diǎn),語(yǔ)音合成隨著(zhù)技術(shù)的發(fā)展,它的合成效果越來(lái)越好,那么它在交互過(guò)程中的作用實(shí)際上是越來(lái)越重要的。所以我們說(shuō)“無(wú)合成,不交互”,語(yǔ)音合成的語(yǔ)音是信息的載體,所有的機器反饋的信息都會(huì )通過(guò)語(yǔ)音的展示形式反饋給用戶(hù)。
另外,我們可以提供多種多樣的展現形式,讓語(yǔ)音不再生硬,不再呆板,變得非常靈活,可以有多種多樣的展現形態(tài)。從效果來(lái)說(shuō),它更媲美真人,讓大家在一定程度上覺(jué)得是真假難辯的一個(gè)程度。所以說(shuō)通過(guò)這種即時(shí)的響應,讓語(yǔ)音交互變得更加即時(shí),體驗更加好一些。
接下來(lái)簡(jiǎn)單回顧一下語(yǔ)音合成的技術(shù)發(fā)展,在19世紀80年代,當時(shí)類(lèi)似鋼琴一樣的設施,需要去彈奏才能合成出來(lái)某些特定的聲音。進(jìn)入20世紀80年代之后,通過(guò)一些計算機技術(shù)可以對聲音進(jìn)行編碼,通過(guò)共振峰合成的形式來(lái)合成出語(yǔ)音。90年代之后計算機技術(shù)發(fā)展越來(lái)越快,通過(guò)大量運算、大量的存儲可以讓語(yǔ)音合成的效果進(jìn)一步提升,達到了一定程度上的商用可能。近期我們發(fā)現它已經(jīng)進(jìn)入一個(gè)自學(xué)習階段,這個(gè)階段會(huì )讓語(yǔ)音合成的應用更加廣泛,后面會(huì )展開(kāi)解釋。
先來(lái)看一下在運算階段,實(shí)際上整個(gè)網(wǎng)絡(luò )分成幾個(gè)模塊,從圖中可以看到,利用音庫我們需要提取文本信息、基頻譜等等特征去訓練一個(gè)模型,在這個(gè)階段最主要的計算特點(diǎn)是基于統計特征的一些模型,包括音碼可復模型、高斯混合模型,那么有了這些模型的指導,我們一個(gè)比較常見(jiàn)的商用系統就是拼接合成系統就把原始的錄音切成很小的片段,在合成階段把這些片段進(jìn)行有效地拼接,它的一個(gè)好處是合成的語(yǔ)音比較接近真人的音色,但是缺點(diǎn)也顯而易見(jiàn),因為音庫不可能非常大,音庫的制作周期長(cháng)耗費大,所以拼接出來(lái)的語(yǔ)音特點(diǎn)往往是好的地方很好,有些地方不好的時(shí)候讓人感覺(jué)很不舒服,它的拼接并不流暢。

(標貝科技CTO李秀林現場(chǎng)PPT)
從2016年開(kāi)始,語(yǔ)音合成進(jìn)入了一個(gè)非常特殊的時(shí)期,我們把它命名為自學(xué)習的階段。那么這個(gè)階段主要特點(diǎn)是利用神經(jīng)網(wǎng)絡(luò )的技術(shù),通過(guò)復雜的神經(jīng)網(wǎng)絡(luò )模型去擬合聲音的生成過(guò)程。
比如在2016年WaveNet提出,給我們提供了一個(gè)新的考慮語(yǔ)音合成的特點(diǎn),之前的語(yǔ)音基本都是按幀或者按照音節或者音子合成的,在這個(gè)框架下實(shí)際是逐點(diǎn)預測,一個(gè)16k采樣率的語(yǔ)音,每秒的語(yǔ)音需要對應16000次的復雜運算才能生成語(yǔ)音,但是它的音質(zhì)大大改善,遠遠超出之前的系統。
接下來(lái)2017年有端到端的Tacotron的方法,直接文本輸出語(yǔ)音,在這種模式下又讓很多機器學(xué)習的研發(fā)人員加入到語(yǔ)音合成的領(lǐng)域,從而使得這個(gè)行業(yè)的發(fā)展更加快速。
在2018年端到端的基礎上神經(jīng)網(wǎng)絡(luò )聲碼器大行其道,使得端到端加上神經(jīng)網(wǎng)絡(luò )聲碼器的方案受到廣泛采納。
從上述這三個(gè)主要的模型來(lái)看,整個(gè)的合成效果都是得到了很大的提升,它也為我們開(kāi)拓了一些新的應用領(lǐng)域的可能。
總結一下,就是傳統的語(yǔ)音合成方法,音庫制作、整個(gè)的系統制作流程都很復雜,成本比較高,周期比較長(cháng),而且還有一些聲音的不盡如人意的情況,但是神經(jīng)網(wǎng)絡(luò )的方法其實(shí)也不是盡善盡美,我們現在看到的是神經(jīng)網(wǎng)絡(luò )的方法需要大量的計算、大量的數據,這些在滿(mǎn)足大量數據的情況下我們發(fā)現會(huì )有一些問(wèn)題。
因為我們現在語(yǔ)音合成的數據基本是單個(gè)人去采集聲音,但是單個(gè)人采集聲音的量往往不會(huì )太大,可能幾萬(wàn)句話(huà)就是一個(gè)非常大的數據庫了。這種情況下我們發(fā)現它有些問(wèn)題,所以我們提出一個(gè)解決的辦法,我們是在端到端的基礎上用它最核心的部分,也就是Attention的機制,整個(gè)系統我們不用端到端,希望文本的部分用文本的屬性,語(yǔ)音的部分用語(yǔ)音的屬性,這樣的話(huà)我們可以充分利用我們文本的數據積累去改善整個(gè)合成效果。
同時(shí),在真正落地的時(shí)候,GPU在生產(chǎn)環(huán)境下落地其實(shí)是有一定困難的,我們也做了針對性的優(yōu)化,讓它在CPU情況下能夠進(jìn)行高效的合成。我們所做的具體的就是把輸入數據的緯度從數萬(wàn)維降低到數十維,我們對文本之前積累的數據模型進(jìn)行了非常好的整合與神經(jīng)網(wǎng)絡(luò )的后端進(jìn)行了一個(gè)適配,達到了一個(gè)比較好的效果。
接下來(lái)說(shuō)一下產(chǎn)品技術(shù)體系,因為我們比較專(zhuān)注,做的主要是數據和語(yǔ)音合成,我們在技術(shù)層面把控好我們整個(gè)數據生產(chǎn)流程,從數據的設計、采集加工和質(zhì)檢,保證AI所需要的各項數據都是能夠高質(zhì)量對模型訓練非常有價(jià)值,結合我們的算法、模型和架構我們將這些數據轉換成可以直接落地的技術(shù)形態(tài)。

(標貝科技CTO李秀林現場(chǎng)PPT)
根據上面的技術(shù)和產(chǎn)品,我們實(shí)際上構造了三位一體的競爭優(yōu)勢,也就是依托我們的核心數據壁壘以及我們的聲音超市、明星語(yǔ)音IP庫等等。
這就是我們聲音超市的一個(gè)界面,用戶(hù)可以從這里面直接體驗不同的聲音,去選擇自己所喜歡的音色。到目前為止,我們在合成方面已經(jīng)積累了超過(guò)三千小時(shí)的合成數據庫,合成數據庫的錄制加工其實(shí)是非常復雜,對發(fā)音人的音色、一致性、環(huán)境等等都會(huì )有非常高的要求,那么后期還需要有文本層面的聲音層面的各種處理環(huán)節。

(標貝科技CTO李秀林現場(chǎng)PPT)
現在語(yǔ)音條目已經(jīng)超過(guò)了兩百萬(wàn)條,定制庫已經(jīng)達到了兩百多個(gè),包括中文、英文、韓文等不同的語(yǔ)言,每種語(yǔ)言又有不同的風(fēng)格不同的年齡特點(diǎn)。整體來(lái)說(shuō),在合成數據方面準確率可以達到99.5%的標注水平,在識別方面我們的量更大一些,準確率也能達到99%。
我們認為核心市場(chǎng)其實(shí)有五個(gè),泛娛樂(lè )、智慧教育、智能客服、智能家居、有聲讀物,這五個(gè)方面目前我們也有諸多探索,也取得了一些比較好的成果。
語(yǔ)音合成我認為或者說(shuō)我們標貝科技覺(jué)得現在走入一個(gè)新的階段,在這個(gè)階段不是說(shuō)功能性的,功能性的時(shí)代已經(jīng)過(guò)去了,語(yǔ)音合成功能并不稀奇,現在最主要的是說(shuō)我們需要讓用戶(hù)有更多的可選擇性,需要滿(mǎn)足個(gè)性化的需求。