如果你和大多數消費者一樣,你今天早上或許在家通過(guò)智能音箱查問(wèn)天氣和新聞,或者在通勤的路上讓車(chē)載語(yǔ)音助手為你獲取最佳的駕駛路線(xiàn)。

隨著(zhù)語(yǔ)音助手變得越來(lái)越普遍,以及語(yǔ)音合成(TTS)技術(shù)越發(fā)先進(jìn),推動(dòng)了像語(yǔ)音克隆、無(wú)性別語(yǔ)音助手和更多的創(chuàng )新應用。與此同時(shí),我們在開(kāi)發(fā)創(chuàng )新產(chǎn)品時(shí)必須考慮科技時(shí)代的倫理規范。
通過(guò)這篇文章,Cerence的TTS開(kāi)發(fā)總監Johan Wouters解答了大家最為關(guān)心的一些問(wèn)題:
人們會(huì )被TTS愚弄或誤導嗎?
如果集成了語(yǔ)音合成技術(shù)的應用程序沒(méi)有規范用戶(hù)如何適當使用合成音,TTS有機會(huì )被有心人濫用,存在安全隱患。其實(shí),合成語(yǔ)音與人類(lèi)的聲音已變得難以區分,并且有可能合成任何人的聲音;因此,應用程序必須清楚地標識語(yǔ)音是由機器合成的,以避免混淆用戶(hù)。
針對語(yǔ)音合成技術(shù)應用的安全風(fēng)險問(wèn)題,Cerence用戶(hù)界面(UI)專(zhuān)家進(jìn)行了各種用戶(hù)研究,并向客戶(hù)提供UI設計方面的最佳實(shí)踐。
TTS是否可以用于不適當的目的?
語(yǔ)音合成技術(shù)發(fā)展迭代迅速,現階段語(yǔ)音合成技術(shù)已經(jīng)可以模擬人類(lèi)的聲音、語(yǔ)氣和情感,通過(guò)機器就可以生成以假亂真的聲音。這意味著(zhù),不法分子可以將應用程序用于詐騙的行為。
科技改變了人與人的交流方式,在信任錄音或通過(guò)免提電話(huà)與人互動(dòng)之前,你需要額外小心。正如修圖軟件的普及讓數字圖像編輯變得容易,從而直接影響了照片和視頻的真實(shí)判斷。
語(yǔ)音模擬并不新鮮,對于有不同意圖的人來(lái)說(shuō),應用也變得更容易。但從專(zhuān)業(yè)的角度,先進(jìn)的語(yǔ)音技術(shù)是可以防止不當使用,這正是我們下一個(gè)重點(diǎn)討論的話(huà)題。
Cerence是如何防止TTS技術(shù)不規范的使用?
我們與客戶(hù)保持密切聯(lián)系,其中包括所有世界領(lǐng)先的汽車(chē)制造商,并支持他們在充分考慮倫理規范的情況下,讓用戶(hù)使用TTS技術(shù)以獲得更多的便利。
一般情況下,我們不會(huì )將我們的技術(shù)提供給個(gè)別開(kāi)發(fā)者,因為發(fā)生不規范使用的可能性會(huì )較高。
作為領(lǐng)先語(yǔ)音技術(shù)的提供商,Cerence提供的聲紋驗證解決方案,不僅能夠對每個(gè)人獨特的聲紋進(jìn)行準確的驗證,還可以檢測到合成語(yǔ)音的使用情況。

每個(gè)人都有獨一無(wú)二的“聲紋”,這一點(diǎn)和指紋一樣。聲紋代表了特定說(shuō)話(huà)者的生物特征和行為特點(diǎn)。生物特征是指說(shuō)話(huà)者聲道的特性,如長(cháng)短、形狀與大小,讓每個(gè)人發(fā)出不一樣的聲音。行為特點(diǎn)是指聲音的韻律特點(diǎn),如口音、語(yǔ)速以及詞匯發(fā)聲與重音。
此外,Cerence正在研究音頻數字水印算法的應用,將人耳聽(tīng)不到的水印信息嵌入在TTS中,以確保我們的聲紋驗證方案總是能夠準確識別說(shuō)話(huà)人的身份。未來(lái),一些政府部門(mén)可能會(huì )要求TTS系統始終嵌入音頻數字水印。
在文本轉換成語(yǔ)音和計算機生成語(yǔ)音的世界中將帶來(lái)很多商機,但就像任何技術(shù)創(chuàng )新一樣,我們必須把終端用戶(hù)的倫理規范放在首位。Cerence將致力發(fā)展并繼續在這一領(lǐng)域保持領(lǐng)先的地位。