語(yǔ)音合成技術(shù)已進(jìn)入到人們的日常生活,有聲閱讀、智能客服、智能家居等場(chǎng)景都已經(jīng)出現了“它”的身影。有情感的聲音,賦予機器生命感,讓人機交互更美好、簡(jiǎn)單。

5月28日,標貝科技重磅推出情感合成方案,主打高音質(zhì)及高自然度的情感語(yǔ)音合成效果,滿(mǎn)足有聲閱讀、兒童教育、車(chē)載、泛娛樂(lè )等多場(chǎng)景使用。據悉,標貝科技本次打造情感合成方案,是繼3月成功推出留聲機方案之后,推出的又一全新TTS解決方案,通過(guò)整體提高情感合成聲音效果,提升用戶(hù)的交互體驗。

AI情感合成讓語(yǔ)音交互更有溫度
聲音的可用性,可以通過(guò)自然度、可懂度、識別度等維度來(lái)考量。語(yǔ)音技術(shù)的進(jìn)步,讓機器合成的聲音不再頓挫、冰冷,在自然度和可懂度等方面取得了不錯的成績(jì),但當前合成效果在合成音的表現力上,特別是語(yǔ)氣和情感方面,還有不足。缺乏情感的聲音,何談傳遞情感,留住用戶(hù)?
情感合成,可以具有更進(jìn)一步的聲音表現力,傳遞出文本文字之外更多的信息,做到聲情并茂,以更動(dòng)聽(tīng)的聲音,更富有情感地表達內容。
事實(shí)上,不同場(chǎng)景及文本類(lèi)型,對聲音的要求也不同,除了基本的高音質(zhì)、自然度要求外,讓聲音擁有情感是不可或缺的。同樣的文本內容,用不同情感表達出的傳遞出的意思也不盡相同,需要“音”景制宜,以增強用戶(hù)的融入感、代入感。例如,這句話(huà)“為什么你要這么問(wèn)我?”試想下用生氣、高興、恐懼等情感說(shuō)出效果與表達的意思。
此外,隨著(zhù)語(yǔ)音技術(shù)推廣應用深入不同的服務(wù)場(chǎng)景,用戶(hù)對聲音提出了更高的要求。智能客服場(chǎng)景,需要親和溫暖的聲音來(lái)提高用戶(hù)的滿(mǎn)意度;有聲閱讀場(chǎng)景,需要根據不同題材搭配出不同聲音,讓用戶(hù)感受有聲文本的魅力;智慧生活場(chǎng)景的語(yǔ)音交互,需要有情感的聲音賦予機器生命力,更懂用戶(hù),感受科技生活的美好。
因此,如何進(jìn)一步提高語(yǔ)音合成的表現力,特別是讓合成語(yǔ)音能夠模擬表達說(shuō)話(huà)人的情感狀態(tài),是語(yǔ)音合成未來(lái)發(fā)展的趨勢,而這也正是標貝科技一直努力的方向。
打造高音質(zhì)、高自然度、強表現力的情感合成TTS
據標貝科技語(yǔ)音相關(guān)負責人介紹,基于深度學(xué)習技術(shù)及自有定制情感數據,標貝本次推出情感合成TTS,主打高音質(zhì)、高自然度與多情感,可以呈現出高興、憤怒、恐懼、哀嘆、悲傷等多種情感聲音,在韻律表現、聲音層次感、情感表達等方面做到更加接近真人情感化表達的語(yǔ)音效果。標貝科技希望通過(guò)語(yǔ)音技術(shù)的不斷創(chuàng )新,打造出更有表現力、更自然、更動(dòng)聽(tīng)的情感合成語(yǔ)音,持續提升用戶(hù)交互體驗。
例如有聲閱讀、兒童教育、智能硬件等場(chǎng)景,高音質(zhì)、自然度的情感很重要。標貝通過(guò)使用情感TTS技術(shù),力求在語(yǔ)氣、語(yǔ)音、語(yǔ)調、情感等方面接近真人說(shuō)話(huà),與場(chǎng)景匹配,讓用戶(hù)在不同場(chǎng)景和碎片化時(shí)間,進(jìn)行有聲聽(tīng)讀獲取資訊、體驗在線(xiàn)學(xué)習教育獲得優(yōu)質(zhì)體驗。
以多角色情感合成為例,由于故事、小說(shuō)等文本素材包含大量角色人物,通過(guò)不同情感合成聲音配合文本內容,以展現文學(xué)小說(shuō)人物的的特點(diǎn),讓AI技術(shù)生產(chǎn)的有聲讀物更有“人情味”。
下面通過(guò)一個(gè)多角色多情感的兒童故事合成樣本,來(lái)展示標貝情感TTS帶來(lái)不一樣的有聲故事體驗。
在故事中,我們可以切實(shí)感受到故事中人物情感的變化情況,更能夠吸引少兒聽(tīng)眾,營(yíng)造一種引人入勝的沉浸感。
來(lái)自易觀(guān)發(fā)布《2020年中國音頻產(chǎn)業(yè)生態(tài)發(fā)展分析報告》表示,有聲市場(chǎng)呈現增長(cháng)的態(tài)勢,越來(lái)越多的用戶(hù)開(kāi)始接受有聲閱讀這樣的形式來(lái)收聽(tīng)內容。其中,2020年1季度,在某知名有聲書(shū)平臺的播放量和收聽(tīng)人數上都有顯著(zhù)增長(cháng),兩者環(huán)比分別增長(cháng)80.32%和39.82%。此外,用戶(hù)在有聲讀物的付費購買(mǎi)上也更加積極,2019年該平臺整體有聲書(shū)專(zhuān)輯訂單中過(guò)半為付費訂單。
毫無(wú)疑問(wèn),有聲市場(chǎng)的爆發(fā)增長(cháng),將誕生大量不同類(lèi)型的有聲內容,相信情感語(yǔ)音合成能夠帶來(lái)更加自然和豐富的語(yǔ)音體驗,為有聲讀物市場(chǎng)提供更有競爭力的差異化產(chǎn)品。
自有數據庫加持讓情感合成實(shí)現“可定制”
事實(shí)上,打造自然、高表現力的聲音效果,自然離不開(kāi)語(yǔ)音情感數據支持。數據庫是語(yǔ)音合成技術(shù)的基礎,也是決定語(yǔ)音合成效果的關(guān)鍵因素之一。據了解,標貝科技本次打造的情感TTS,采用了自有定制的高保真的情感語(yǔ)音庫。
目前,標貝科技自有定制型語(yǔ)音庫已開(kāi)發(fā)出包括中文女聲情感音庫、多語(yǔ)種多音色男女聲音庫、粵語(yǔ)語(yǔ)音庫、兒童語(yǔ)音庫、葡萄牙語(yǔ)音庫、臺灣普通話(huà)語(yǔ)音庫、日語(yǔ)音庫、韓語(yǔ)音庫、明星語(yǔ)音庫等數十種類(lèi)別,IP語(yǔ)音庫還在不斷豐富和積累中。
基于領(lǐng)先語(yǔ)音技術(shù)+高質(zhì)量的數據庫基礎,標貝能夠提供業(yè)內優(yōu)質(zhì)的情感解決方案,呈現出聲音的多樣性、和個(gè)性化的合成效果體驗。這也是因為標貝科技自成立起,將語(yǔ)音交互效果和數據質(zhì)量放在首位,擁有完整的采標一體化解決方案,能夠實(shí)現快速產(chǎn)出高質(zhì)量的語(yǔ)音合成、語(yǔ)音識別、自然語(yǔ)言處理、計算機視覺(jué)等采標服務(wù),為行業(yè)提供一站式語(yǔ)音和數據服務(wù)。
未來(lái),隨著(zhù)語(yǔ)音技術(shù)不斷發(fā)展,技術(shù)與場(chǎng)景的關(guān)系變得緊密,而用戶(hù)需求變得更加個(gè)性化。標貝科技將加大技術(shù)創(chuàng )新投入,打造更有溫度的情感聲音,讓語(yǔ)音交互效果更“聲入人心”。