目前市面上的可發(fā)聲芯片分為兩大類(lèi):語(yǔ)音合成芯片與語(yǔ)音芯片。在實(shí)際開(kāi)發(fā)語(yǔ)音終端產(chǎn)品工作中,有很多的研發(fā)人員在這兩類(lèi)芯片的認知上難免會(huì )出現概念上混淆,常常將語(yǔ)音合成芯片誤認為語(yǔ)音芯片,加之一些制作銷(xiāo)售語(yǔ)音芯片的公司,為了更好的銷(xiāo)售,以突出語(yǔ)音芯片的價(jià)格優(yōu)勢,也對外宣稱(chēng)其語(yǔ)音IC是語(yǔ)音合成芯片,有意識地誤導開(kāi)發(fā)人員,其實(shí)這兩者芯片是有本質(zhì)上的區別的。
語(yǔ)音合成芯片,又稱(chēng)文語(yǔ)轉換(Text to Speech)技術(shù)(簡(jiǎn)稱(chēng)TTS芯片),能將任意文字信息實(shí)時(shí)轉化為標準流暢的語(yǔ)音朗讀出來(lái),相當于給機器裝上了人工嘴巴。通過(guò)UART接口或SPI接口通訊方式,接收待合成的文本數據,實(shí)現文本到語(yǔ)音(或TTS語(yǔ)音)的轉換。其特性是:支持任意中文文本的合成,對常見(jiàn)的數值、電話(huà)號碼、時(shí)間日期、度量衡符號等格式的文本具有文本智能分析處理功能;只需要上位機通過(guò)串行通信對其發(fā)送一段文本信息,再將文本信息轉化為語(yǔ)音信號從而實(shí)現實(shí)時(shí)播報。
語(yǔ)音芯片,顧名思義就是可以存儲控制播放語(yǔ)音的IC;是指將語(yǔ)音信號通過(guò)采樣轉化為數字,存儲在IC的ROM中,再通過(guò)電路將ROM中的數字還原成語(yǔ)音信號。從使用方法來(lái)看,語(yǔ)音芯片的主要使用方式是先對其進(jìn)行錄音,錄音完成燒錄后再來(lái)對其使用。
總的來(lái)說(shuō),語(yǔ)音IC是把聲音錄制進(jìn)去才能播放,中文TTS芯片是可以直接把文本的內容播放出來(lái)。所以,語(yǔ)音合成芯片是一種高端的語(yǔ)音芯片,是一種采取了語(yǔ)音合成技術(shù)的、截然不同的智能語(yǔ)音芯片,它內置了中文TTS軟件或語(yǔ)音合成軟件核心。從未來(lái)的市場(chǎng)發(fā)展和用戶(hù)體驗要求上來(lái)看,語(yǔ)音合成芯片的便捷性始終優(yōu)于市場(chǎng)上的各類(lèi)語(yǔ)音芯片,更確切的說(shuō),未來(lái)的語(yǔ)音合成芯片合成效果自然度將更高,性?xún)r(jià)比將更高,控制更方便以及面向多語(yǔ)種化。
語(yǔ)音合成芯片與語(yǔ)音芯片本質(zhì)區別在于語(yǔ)音更新:
語(yǔ)音合成芯片,無(wú)需燒錄語(yǔ)音。只需要發(fā)送漢字的字庫就可以播報出來(lái),特別是處理大量的非固定的文本信息的時(shí)候且需要實(shí)時(shí)語(yǔ)音提示時(shí),就必須要用到語(yǔ)音合成了。市面上目前比較成熟的SYN6658語(yǔ)音合成芯片,受到很多研發(fā)人員的認可。
語(yǔ)音芯片,需預錄制語(yǔ)音(涉及終端產(chǎn)品更新必須找同一錄音人)、需重新燒錄、需校驗,語(yǔ)音段長(cháng)度受限,尤其是當這些研制出的語(yǔ)音終端,銷(xiāo)往不同的用戶(hù),就需要使用不同的語(yǔ)音錄制文件,這將會(huì )消耗研發(fā)人員大量的寶貴成本。
目前市面上的語(yǔ)音合成芯片對比如下圖,可迅速了解芯片的相關(guān)性能:
