語(yǔ)音合成芯片探析
2009/07/31
語(yǔ)音合成芯片就是將完整的語(yǔ)音合成系統固化集成到芯片內部,通過(guò)簡(jiǎn)單的接口接收待合成的文本信息,將文本合成為清晰流暢的語(yǔ)音輸出,完成機器代替人說(shuō)話(huà)傳達信息的過(guò)程,語(yǔ)音芯片應用簡(jiǎn)單,開(kāi)發(fā)和使用成本低,在車(chē)載調度、氣象預警、公交報站等領(lǐng)域被廣泛應用。
語(yǔ)音合成芯片最大的功能應用點(diǎn)在于用戶(hù)需要播報一些大量、動(dòng)態(tài)文本信息時(shí),可以即時(shí)、方便的將文本信息內容合成為語(yǔ)音輸出,從而解決傳統錄音芯片無(wú)法解決的大容量、動(dòng)態(tài)文本信息播報問(wèn)題。
目前,市場(chǎng)上語(yǔ)音合成芯片價(jià)位從幾十元到幾百元的都有,另外芯片外形、產(chǎn)品封裝形式、調用接口等紛繁復雜,讓用戶(hù)在選擇語(yǔ)音合成芯片時(shí)經(jīng)常陷入迷惑狀態(tài)。那么如何正確分辨、選用一款高性能語(yǔ)音合成芯片?語(yǔ)音合成芯片重點(diǎn)需要考核哪些性能指標?以下參數將成為用戶(hù)重點(diǎn)評估方向:
1、語(yǔ)音合成效果。
語(yǔ)音合成芯片的應用目的是以語(yǔ)言的方式傳達文本信息,機器說(shuō)話(huà)是否標準,人能否聽(tīng)懂聽(tīng)舒服自然成為最最重要的衡量指標。語(yǔ)音芯片的朗讀效果主要由兩個(gè)重要技術(shù)指標決定:可懂度和自然度。可懂度就是人們能夠聽(tīng)懂機器合成出來(lái)的內容,是語(yǔ)音合成芯片能否應用的基本要求;自然度則是機器發(fā)音效果是否易于理解,聽(tīng)著(zhù)舒服,與正常人說(shuō)話(huà)的差距。國家863專(zhuān)家組對語(yǔ)音合成效果的自然度綜合評測有詳細說(shuō)明,規定采用5分制打分,達到可接受階段為3.0分,普通人說(shuō)話(huà)水平為4.0分,播音員的水平為5.0分。可懂度是衡量語(yǔ)音合成產(chǎn)品是否可用的標準,自然度則是評價(jià)產(chǎn)品是否可以大規模應用,以及應用于高端領(lǐng)域的重要指標。
2、能否識別常見(jiàn)的特殊格式文本。
為了滿(mǎn)足不同文本的合成需求,語(yǔ)音合成芯片除了能夠自動(dòng)識別常見(jiàn)文本內容外,在一些特殊格式文本方面,如時(shí)間、日期、網(wǎng)站名稱(chēng)等格式的文本,也要能夠智能判讀。“12:10:35”讀成“十二點(diǎn)十分三十五秒”,“2008-1-13”讀成“二零零八年一月十三號”,“http://www.abc.com”讀成“h-t-t-p
w-w-w點(diǎn)a-b-c點(diǎn)c–o- m”。
3、能否識別常見(jiàn)的特殊符號、單位符號。
對于一些特殊符號及單位符號等,語(yǔ)音合成芯片也需要能夠正確識別并合成出來(lái),如:“-2℃”讀成“零下2攝氏度”,其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能夠人們按照閱讀習慣進(jìn)行讀出。
4、能否判讀常見(jiàn)多音字。
多音字作為漢字中常見(jiàn)的發(fā)音重點(diǎn)和難點(diǎn),是各家語(yǔ)音公司關(guān)注的焦點(diǎn),特別是中文語(yǔ)音合成芯片,在這方面更需要優(yōu)異的表現。如:音樂(lè ),銀行,特長(cháng),即將,股市行情,調整,校正,災難,沒(méi)收,長(cháng)三角,西藏,濟南,重慶,成都等等,多音字能否正確判讀直接影響合成信息的可懂度,信息受眾者的理解,所以必須準確朗讀。
5、能否支持多種漢字編碼支持。
多種漢字編碼支持目前也已成為考核語(yǔ)音合成芯片性能的重點(diǎn),這點(diǎn)在方便終端用戶(hù)使用方面以及支持漢字識別范圍方面均非常重要。目前常用的漢字編碼格式有GB2312,
Unicode,GBK,BIG5等。
6、能否支持數字的讀法。
生活離不開(kāi)數字,數字串的正確識別合成輸出,在眾多應用領(lǐng)域成為普遍性關(guān)注點(diǎn),合成文本中會(huì )經(jīng)常出現類(lèi)似如:“請撥打12345”、“電話(huà):12345”“熱線(xiàn):12345”
“我的號碼:12345”等內容,一款高性能語(yǔ)音合成芯片能夠智能判斷把數字串讀成數值、還是號碼。如“12345”會(huì )自動(dòng)按照號碼的讀成“一二三四五”。“139-11661189”自動(dòng)按照號碼讀成“幺三九幺幺六六幺幺八九”。而“12345公斤”會(huì )自動(dòng)讀成“一萬(wàn)二千三百四十五公斤”,
“345678個(gè)”會(huì )讀成“三十四萬(wàn)五千六百七十八個(gè)”等等。
7、能否支持合成參數設置。
參數合成設置主要是為了方便使用語(yǔ)音芯片進(jìn)行二次開(kāi)發(fā)的用戶(hù)來(lái)進(jìn)行設置、調試、修正文本合成效果。語(yǔ)音合成芯片應該能夠支持多種標記功能,可以按照需要進(jìn)行標記。使用多種標記進(jìn)行設置更為直觀(guān)方便、易維護。例如:設置音量,只要使用合成命令幀發(fā)送[v9],就可把音量設置9級音量。
8、用戶(hù)使用接口簡(jiǎn)單、易用。
以上是從語(yǔ)音合成芯片效果及語(yǔ)音合成芯片內核等方面來(lái)評估語(yǔ)音合成芯片的性能,其實(shí),在實(shí)際選用一款好的語(yǔ)音合成芯片的時(shí)候,用戶(hù)還需要注意芯片硬件方面的參數,如:是否單芯片,體積大小,能夠大批量貼片焊接生產(chǎn)?以及功耗,工作溫度等等方面。
科大訊飛語(yǔ)音合成技術(shù)及語(yǔ)音合成芯片簡(jiǎn)介:
科大訊飛是一家專(zhuān)業(yè)從事智能語(yǔ)音及語(yǔ)言技術(shù)研究、軟件及芯片產(chǎn)品開(kāi)發(fā)、語(yǔ)音信息服務(wù)及電子政務(wù)系統集成的國家級骨干軟件企業(yè),是我國眾多軟件企業(yè)中為數極少掌握核心技術(shù)并擁有自主知識產(chǎn)權的企業(yè)之一,其智能語(yǔ)音核心技術(shù)代表了世界的最高水平。
訊飛嵌入式語(yǔ)音合成技術(shù)采用基于HMM的參數語(yǔ)音合成方法,在保證合成語(yǔ)音清晰流暢的同時(shí),充分降低合成系統的存儲與運算資源消耗,以滿(mǎn)足嵌入式設備上的資源受限環(huán)境。
基于科大訊飛世界領(lǐng)先的中文語(yǔ)音合成技術(shù),訊飛嵌入式語(yǔ)音合成芯片自2001年起陸續推出了XF1M01、XF-1M02、XF-2S01E、XF-S3111、XF-S3231、XF-S3011、XF-S4240、XF-S4040、XFS3031CN、XFS4041CN共10款產(chǎn)品,并已經(jīng)在車(chē)載GPS調度終端、氣象預警機、考勤機、信息機、智能玩具、智能儀表等領(lǐng)域大規模普及應用。
目前,科大訊飛針對普通、中端、高端市場(chǎng)需求推了XFS3031CN、XFS4041CN和XF-S4240三款語(yǔ)音合成芯片,三款芯片性能均非常突出卓越,其差異性主要體現在合成效果指標中自然度上,按照國家863專(zhuān)家組5分制標準來(lái)評分,其綜合評分分別為3.01分、3.63分和3.76分,也就是說(shuō)三者語(yǔ)音合成效果相比較,XFS3031CN一般,XFS4041CN居中,XF-S4240最好。
另外,三款語(yǔ)音芯片均通過(guò)了車(chē)載、電力、氣象等眾多行業(yè)相關(guān)要求的專(zhuān)業(yè)認證和測試標準,并已在多個(gè)客戶(hù)產(chǎn)品中成功集成上市,語(yǔ)音芯片的詳細功能特性,有興趣的朋友可以登陸科大訊飛網(wǎng)站(www.iflytek.com)下載詳查或來(lái)電來(lái)函索要。聯(lián)系方式如下:
北京分公司:
電話(huà):010-58301005轉8009
深圳辦事處:
電話(huà):0755-83073410
上海辦事處:
電話(huà):021-58318011
CTI論壇報道
安徽省語(yǔ)音產(chǎn)業(yè)發(fā)展座談會(huì )勝利舉行 2009-07-29 |
訊飛語(yǔ)音助力安徽評標專(zhuān)家庫客服系統 2009-07-14 |
電視讀報:為用戶(hù)打造專(zhuān)屬讀報人 2009-07-08 |
科大訊飛推出語(yǔ)音合成芯片XFS3031CN 2009-07-07 |
嵌入式語(yǔ)音技術(shù)應用將實(shí)現爆發(fā)式增長(cháng) 2009-07-02 |