科大訊飛InterPhonic 3.0語(yǔ)音合成系統新特性預覽
2004/01/12
領(lǐng)先的專(zhuān)業(yè)語(yǔ)音技術(shù)提供商-科大訊飛日前宣布其新一代重量級語(yǔ)音合成系統InterPhonic 3.0將于2004年第一季度推出。
科大訊飛每一代語(yǔ)音合成系統的推出都標志著(zhù)中文語(yǔ)音合成技術(shù)產(chǎn)品的一個(gè)全新里程碑,在效果表現和功能特性上的持續推進(jìn)也得到了眾多客戶(hù)的充分肯定。InterPhonic 3.0延續了科大訊飛的技術(shù)產(chǎn)品基本路線(xiàn)與原則,即基于對語(yǔ)音合成技術(shù)發(fā)展的深入思考、穩健把握和對用戶(hù)需求的廣泛收集與詳細分析,將以全新的面貌展現在合作伙伴與客戶(hù)面前。
現在我們已經(jīng)可以預覽InterPhonic 3.0的一些重要新特性:
1.全新風(fēng)格的女聲音庫,并支持多音庫管理和運行時(shí)自由切換;
隨著(zhù)語(yǔ)音技術(shù)的迅速發(fā)展,應用也隨之不斷深入,語(yǔ)音合成技術(shù)正日益在更廣闊的范圍內體現出其獨特的優(yōu)勢,已由簡(jiǎn)單信息發(fā)布迅速向更加豐富的信息服務(wù)內容擴展。用戶(hù)對電話(huà)信道上的語(yǔ)音效果提出了新的要求,要求更加人性化,更加親切自然。基于運營(yíng)商和集成商的新要求,并調查了最終用戶(hù)的反饋意見(jiàn),科大訊飛確定了新一代合成系統的發(fā)音風(fēng)格,制作推出了新的女聲音庫。在制作新的音庫時(shí),對錄音語(yǔ)料的選取上充分考慮了新聞、財經(jīng)、電信等行業(yè)的內容,使新的音庫能適合于更加廣泛的應用范圍。新的女聲音庫,由專(zhuān)業(yè)播音員錄制,音質(zhì)清脆甜美,節奏活潑自然,更加符合人性化合成語(yǔ)音的要求。
除支持全新風(fēng)格的女聲音庫外,InterPhonic 3.0語(yǔ)音合成系統也同時(shí)支持原有的語(yǔ)調平穩,語(yǔ)氣正式的女聲音庫。InterPhonic 3.0允許客戶(hù)選擇安裝兩種音庫中的任意一個(gè),或者是同時(shí)安裝兩個(gè)音庫。并且提供了這兩種音庫自由切換的功能。客戶(hù)可以在系統運行的情況下,通過(guò)參數設置切換合成服務(wù)的發(fā)音人。這樣客戶(hù)可以根據業(yè)務(wù)的變化,選擇更加適合應用需要的發(fā)音人,而使整個(gè)語(yǔ)音應用能提供給用戶(hù)更加自然的感受。
2.中文合成技術(shù)和中英文混讀合成技術(shù)方面都有新的突破;
科大訊飛在中文語(yǔ)音合成的研究領(lǐng)域一直走在業(yè)界的最前列,InterPhonic 3.0合成系統發(fā)布版本中,將基礎研究的重要技術(shù)成果成功轉化到產(chǎn)品中,包含了在中文合成技術(shù)和中英文混讀合成技術(shù)方面最新的成果。InterPhonic 3.0采用改進(jìn)的單元挑選算法,并增加了備選語(yǔ)音單元的數量,使合成系統能更加準確選擇滿(mǎn)足實(shí)際應用環(huán)境的語(yǔ)音單元,不僅使合成語(yǔ)音更加自然,而且使系統在更大的應用范圍下也能保證合成效果的穩定性。采用新的韻律預測算法,減少了合成語(yǔ)音中韻律跳躍的現象,保證合成效果更加的流暢。InterPhonic 3.0還采用了新的語(yǔ)音拼接的算法,解決了協(xié)同發(fā)音和單元銜接的問(wèn)題,使合成語(yǔ)音更加的清晰。
3.在中文文本分析和處理的多個(gè)方面都有顯著(zhù)的改進(jìn);
要正確的進(jìn)行語(yǔ)音合成,必須要對輸入的文本進(jìn)行正確分析和處理,這個(gè)問(wèn)題不僅牽涉到對文本進(jìn)行語(yǔ)法層面的分析,還牽涉到對文本語(yǔ)意層面的理解,即自然語(yǔ)言理解層面,一直是研究領(lǐng)域的難題。科大訊飛的基礎研究部門(mén)在文本分析領(lǐng)域的長(cháng)期積累和不懈創(chuàng )新,保證了語(yǔ)音合成系統的文本分析能力在歷次評測中一向都是最領(lǐng)先的,在實(shí)際應用中也得到了廣大客戶(hù)的一致認可。
在分析了不同應用領(lǐng)域的文本特征之后,采用了統計和規則相結合的方法來(lái)進(jìn)行中文信息的分析處理。收集了大量與客戶(hù)的業(yè)務(wù)領(lǐng)域相關(guān)的文本和實(shí)際應用中需要合成的文本信息,在進(jìn)行統計分析之后,進(jìn)一步優(yōu)化了統計模型和數據庫,并且增加了大量的處理規則,提升了文本中詞組的識別和特殊符號的處理的準確性。通過(guò)統計和規則的結合,系統既保證了對大量文本分析處理的正確性,也保證在一些特殊語(yǔ)言環(huán)境下分析處理的正確性。
4.支持定制資源包和行業(yè)專(zhuān)用版;
InterPhonic CE 2.0開(kāi)始支持以定制資源庫的方式,提供針對具體應用領(lǐng)域的合成效果更加優(yōu)化的系統。經(jīng)多一年時(shí)間與客戶(hù)的交流和資源的制作,科大訊飛已經(jīng)可以提供證券、氣象、保險、電力等行業(yè)的定制資源包。這些定制資源包在實(shí)際應用環(huán)境取得效果提高已經(jīng)得到了驗證。InterPhonic 3.0將繼續對定制資源包這一重要特性提供支持,同時(shí)還將繼續支持行業(yè)專(zhuān)用版,如銀行專(zhuān)業(yè)版,以滿(mǎn)足銀行業(yè)日益增長(cháng)的語(yǔ)音應用需要。
5.背景音支持;
通過(guò)實(shí)驗和對實(shí)際應用環(huán)境的考察分析發(fā)現,在合成語(yǔ)音或提示音中適當的添加背景音樂(lè ),可以改善用戶(hù)在實(shí)際應用過(guò)程中的體驗,使語(yǔ)音服務(wù)更加的親切自然。在目前的電話(huà)語(yǔ)音應用中,如果客戶(hù)希望實(shí)現背景音和合成語(yǔ)音的同步播放,必須了解一定的語(yǔ)音知識,學(xué)習使用專(zhuān)業(yè)的語(yǔ)音制作工具。科大訊飛考慮了客戶(hù)的實(shí)際要求,在InterPhonic 3.0系統中實(shí)現了背景音的管理和與合成語(yǔ)音的自動(dòng)融合。客戶(hù)可以使用系統提供的工具,添加預錄好的背景音樂(lè ),調整背景音樂(lè )和合成語(yǔ)音的音量的對比關(guān)系,并且可以試聽(tīng)增加了背景音之后的語(yǔ)音效果。在合成過(guò)程中,客戶(hù)只需要在文本中添加CSSML標記,就可以通過(guò)序號引用已經(jīng)添加的背景音樂(lè )。客戶(hù)不需要開(kāi)發(fā)工作,不需要修改已有的應用程序,就可以實(shí)現有背景音樂(lè )的語(yǔ)音合成功能。
6.用戶(hù)提示音資源管理;
目前的電話(huà)語(yǔ)音系統的業(yè)務(wù)流程中往往需要同時(shí)使用預錄的提示音和合成語(yǔ)音結合進(jìn)行提供語(yǔ)音服務(wù)。因此在應用設計和業(yè)務(wù)開(kāi)發(fā)過(guò)程中,需要頻繁地處理提示音播放與語(yǔ)音合成的切換以及之間的過(guò)渡銜接等問(wèn)題,增加了流程的復雜程度。而提示音與合成語(yǔ)音的銜接處理不好,就容易造成語(yǔ)音差異明顯,影響服務(wù)的整體效果與質(zhì)量。
InterPhonic 3.0中具有對提示音的統一管理和處理的功能。用戶(hù)可以將提示音添加到系統中作為資源,并提供了自動(dòng)或手動(dòng)的方式調整提示音的語(yǔ)音特征,使提示音和合成語(yǔ)音合成更好的銜接。客戶(hù)使用CSSML文本標記利用序號引用提示音,通過(guò)合成系統的開(kāi)發(fā)接口得到的語(yǔ)音數據會(huì )自動(dòng)處理提示音與合成語(yǔ)音的拼接問(wèn)題。客戶(hù)不需要的額外的開(kāi)發(fā)工作就可以提升同時(shí)使用兩種語(yǔ)音的情況下播報的語(yǔ)音效果。如果結合InterPhonic 3.0新支持的背景音特性,兩段語(yǔ)音之間有背景音樂(lè )進(jìn)行過(guò)渡,語(yǔ)音應用的效果將更加自然。
7.提供功能豐富、使用便捷的合成工具包。
致力于語(yǔ)音合成核心引擎的縱深研發(fā)和不斷提升之外,科大訊飛同時(shí)不斷推出方便語(yǔ)音開(kāi)發(fā)與應用的工具,幫助合作伙伴和客戶(hù)提高語(yǔ)音應用的效果和效率。InterPhonic 3.0對語(yǔ)音合成工具包進(jìn)一步進(jìn)行豐富與完善,這里面既包括一些客戶(hù)已經(jīng)熟悉的TTS Doctor技術(shù)支持工具、CSSML Editor可視化編輯工具,還將新增性能評估計算工具,并完善離線(xiàn)語(yǔ)音合成套件等等。合理地運用這些工具,有利于合作伙伴和客戶(hù)更好的維護與應用語(yǔ)音合成系統,縮短語(yǔ)音應用集成開(kāi)發(fā)的時(shí)間。
以上只是InterPhonic 3.0部分新特性的預覽,InterPhonic 3.0同時(shí)還支持目前市場(chǎng)主流應用的InterPhonic CE 2.2的所有重要特性。我們相信,隨著(zhù)InterPhonic 3.0的推出,將促使語(yǔ)音應用邁上更高的臺階。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
金平|
铁力市|
鄂尔多斯市|
三门峡市|
壤塘县|
鄄城县|
东兰县|
汉源县|
武夷山市|
安图县|
高雄市|
天全县|
龙游县|
留坝县|
东山县|
海淀区|
望城县|
九龙城区|
政和县|
诸城市|
万源市|
墨竹工卡县|
弋阳县|
庆城县|
贡山|
秦皇岛市|
临邑县|
井冈山市|
全椒县|
清丰县|
新余市|
鄂尔多斯市|
武乡县|
和田市|
芷江|
泰安市|
岫岩|
连江县|
彝良县|
眉山市|
闸北区|
http://444
http://444
http://444
http://444
http://444
http://444