Nuance OSR3.0語(yǔ)音識別產(chǎn)品
2006/09/13
2004年9月,捷通華聲在中國市場(chǎng)正式推出由Nuance公司開(kāi)發(fā)的具有國際最高水平語(yǔ)音識別技術(shù)——OSR(OpenSpeech Recognizer
)。
之所以稱(chēng)之為OSR,是因為此項語(yǔ)音識別技術(shù)是一種基于開(kāi)放標準、可擴展、高性能和高識別率的識別引擎,提供大詞匯量、非特定人、連續的語(yǔ)音識別功能,尤其是在各種無(wú)線(xiàn)環(huán)境之中對于噪雜音的處理功能強大。最新版本的OSR產(chǎn)品是集成了OpenSpeech語(yǔ)音識別以前版本的多種高級功能,它所包括的有限狀態(tài)轉換器(Finite
State Transducer)專(zhuān)利技術(shù)不僅能夠顯著(zhù)地節省內存和CPU的使用,而且還能夠支持包含數百萬(wàn)單詞的應用詞匯表。
OSR產(chǎn)品將以SDK的方式提供給集成商,可廣泛應用在呼叫中心、自動(dòng)總機、語(yǔ)音電話(huà)本、旅行預定、信息檢索、語(yǔ)音門(mén)戶(hù)和客戶(hù)自助服務(wù)等系統中。在語(yǔ)音核心技術(shù)、語(yǔ)音應用和服務(wù)領(lǐng)域,Nuance的語(yǔ)音產(chǎn)品已占有最大的市場(chǎng)份額,所提供的解決方案成功的將每年約500百萬(wàn)的電話(huà)服務(wù)轉化成自動(dòng)化服務(wù),并具有能與所有主要的語(yǔ)音平臺廠(chǎng)商集成應用以及能支持多語(yǔ)種的產(chǎn)品特色,使之成為財富100強首選的語(yǔ)音提供商。
一、OSR3.0主要特點(diǎn)
1、高識別率
語(yǔ)音識別產(chǎn)品的識別率與產(chǎn)品核心、呼叫者使用環(huán)境、呼叫人群口音、IVR平臺流程設計等都有密切的關(guān)系,OSR產(chǎn)品在雜音消除、改善核心算法、提高信心得分的準確度等方面進(jìn)行了大量的工作,使OSR在實(shí)際應用中識別率均達到95%以上,對于小詞匯量的應用識別率則更高。
2、強大的語(yǔ)法分析功能
OSR產(chǎn)品支持百萬(wàn)詞匯的復雜語(yǔ)法應用,利用SpeekFreely技術(shù)還可支持自然語(yǔ)言問(wèn)答式的語(yǔ)法識別。利用OSR的先進(jìn)語(yǔ)法處理能力,用戶(hù)可以利用ECMA腳本語(yǔ)言書(shū)寫(xiě)更復雜的語(yǔ)法,可以創(chuàng )建動(dòng)態(tài)的應用,并具支持共享語(yǔ)法,大幅度提高系統效率。
- 自由問(wèn)答式對話(huà)(SpeakFreely)
SpeakFreely功能模塊,能夠實(shí)現一組基于口語(yǔ)統計模型的高級語(yǔ)音識別功能。SpeakFreely簡(jiǎn)化了復雜語(yǔ)音應用的創(chuàng )建,允許用戶(hù)使用自己的詞匯說(shuō)出自己的需要,從而提高了交互的效率(在傳統系統中,要求用戶(hù)回答一系列答案數量有限的提問(wèn))。
在一個(gè)單獨的應用程序中OSR可以動(dòng)態(tài)訪(fǎng)問(wèn)多個(gè)語(yǔ)法,而且不需要有“組標識符”。使用者可以用編譯前的語(yǔ)法(這些是每個(gè)呼叫者共有的)和實(shí)時(shí)編輯的每個(gè)呼叫者特有的語(yǔ)法結合,來(lái)建造應用程序。在呼叫者和應用之間的共享語(yǔ)法大幅度增加了系統效率。
這些模塊可以嵌入一個(gè)語(yǔ)法或在多個(gè)語(yǔ)法之間共享。也允許開(kāi)發(fā)者去寫(xiě)更多的復雜的語(yǔ)法。通過(guò)這個(gè)途徑,修改一個(gè)單獨的ECMAscript腳本模塊可以影響整個(gè)應用程序,不論這個(gè)腳本是否被使用。
3、獨特的語(yǔ)音端點(diǎn)檢測技術(shù)
OSR擁有一套獨特的端點(diǎn)檢測算法,可以依據振幅和頻譜特征來(lái)進(jìn)行檢測,從而有效地區分背景噪音和通話(huà)者的語(yǔ)音。OSR端點(diǎn)檢測的“靈敏度”可以手動(dòng)調整,以適應安靜或喧鬧的不同環(huán)境。
4、適應性強(E-learn自調節功能)
通過(guò)Nuance具有專(zhuān)利技術(shù)的自動(dòng)調節機制“LEARN”學(xué)習功能,系統可以自動(dòng)調節識別參數和聲學(xué)模型,以適應呼叫人群的本地方言、區域口音和電話(huà)信道等特點(diǎn)。通過(guò)“LEARN”自動(dòng)調節機制,識別錯誤率最多可下降70%。
無(wú)需修改,OSR就可以在廣泛的應用中很好地工作,并適應廣泛的通話(huà)人群。但是,使用某種應用的人群經(jīng)常會(huì )偏向某個(gè)特定的通道類(lèi)型(有線(xiàn)或者無(wú)線(xiàn))、口音(上海口音或河南口音)或者環(huán)境(安靜的或者嘈雜的)。甚至應用領(lǐng)域本身都會(huì )偏向某種發(fā)音或者偏向某種習慣短語(yǔ)。OSR包括一種被稱(chēng)作“LEARN”的管理工具,該工具可以分析通話(huà)者的發(fā)音特征,并用來(lái)優(yōu)化系統,以提高識別率。
5、高性能、低資源消耗
獨特的音頻分析方法及具有專(zhuān)利的有限狀態(tài)轉換技術(shù),使OSR產(chǎn)品在實(shí)際應中,內存占用和CPU的消耗極低。對于復雜的語(yǔ)法應用可以節約90%的資源。
OSR結合了多種技術(shù)以達到高性能,包括曾經(jīng)提到過(guò)的明確分段方法。它也包括享有專(zhuān)利的有限狀態(tài)轉換機(FST)技術(shù),該技術(shù)通過(guò)共享冗余段,簡(jiǎn)潔地表現語(yǔ)法。通過(guò)減少那些必須經(jīng)過(guò)處理來(lái)判斷識別結果的音素的數量,可以除去冗余從而節省內存和計算。它也可以使語(yǔ)法更快地編譯和加載,速度可以提高到5倍。這種節省是非常顯著(zhù)的:一個(gè)消耗170兆字節的、包含40,000詞的語(yǔ)法,通過(guò)FST技術(shù)可以?xún)H僅消耗15兆字節。
每個(gè)語(yǔ)音識別器通過(guò)應用更多的計算資源,可以提供更高的識別率。OSR與同類(lèi)競爭識別器相比,對于這種變化的靈敏度要低一些,因為它有高效的設計。但是,OSR結合了負荷靈敏算法,這可以使所有的可用計算資源發(fā)揮地最好。事實(shí)上,Nuance是第一家開(kāi)發(fā)這種技術(shù)的公司。
OSR可以自動(dòng)地允許語(yǔ)音識別程序在所有的通道上共享被加載到內存的一份語(yǔ)法。這對于許多通道上運行同樣應用的、大規模的使用而言,可以非常顯著(zhù)地減少內存使用。
6、支持開(kāi)放標準
OSR產(chǎn)品是根據VoiceXML設計的,對SRGS(Speech Recognition Grammar Specification,語(yǔ)音識別語(yǔ)法規范)的支持等特點(diǎn)使VoiceXML
和 SALT 應用達到最優(yōu)狀態(tài)。
7、支持多種應用方式
- 單機應用(本地應用):用戶(hù)可以直接在運行IVR的機器上加載OSR;
- 客戶(hù)端/服務(wù)器(C/S結構):用戶(hù)可以直接在服務(wù)器端加載OSR,客戶(hù)端通過(guò)網(wǎng)絡(luò )發(fā)送語(yǔ)音信號并獲取識別結果,這種方式主要用于實(shí)現大規模應用需要;
- VoIP:用戶(hù)也可以在一個(gè)基于VoIP的客戶(hù)端/服務(wù)器架構中配置OSR,在這種情況下,客戶(hù)端是一個(gè)VoIP媒體網(wǎng)關(guān)或媒體服務(wù)器,服務(wù)器是MRCP版本的OpenSpeech服務(wù)器,它提供了帶有標準的VoIP協(xié)議接口的OSR。
8、支持多語(yǔ)言,包括多語(yǔ)言混合識別
OSR產(chǎn)品目前提供15種語(yǔ)言和方言,包括:普通話(huà)(中國大陸、臺灣)、粵語(yǔ)(香港地區)、英語(yǔ)(澳大利亞、新西蘭、英國、美國、新加坡)、法語(yǔ)(法國、加拿大)、德語(yǔ)(德國)、日語(yǔ)(日本)、韓語(yǔ)(韓國)、西班牙語(yǔ)(美國、墨西哥)。
OSR產(chǎn)品的WorldAware功能支持多語(yǔ)種的混合識別,甚至允許單個(gè)語(yǔ)句中的任意語(yǔ)言混合,可以用于構造更加復雜的語(yǔ)音解決方案。
9、支持多種操作系統
OSR可在下列操作系統下使用單機和客戶(hù)端/服務(wù)器配置:
客戶(hù)端操作系統:RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003。
服務(wù)端操作系統:RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003、Solaris。
二、硬件配置要求
三、應用案例
- 美國聯(lián)合航空(United Airlines):客戶(hù)通過(guò)致電1(800)824-6200,應用OSR語(yǔ)音識別技術(shù)可方便查詢(xún)聯(lián)合航空公司每天2400個(gè)航班的狀態(tài),每天有8萬(wàn)多人使用這一系統。
- AOL電話(huà)服務(wù):采用Nuance OSR等語(yǔ)音技術(shù),為America Online的2400萬(wàn)客戶(hù)開(kāi)發(fā)和部署了語(yǔ)音門(mén)戶(hù)服務(wù)。
- Thrifty汽車(chē)租賃:Thrifty租車(chē)公司是全球最大的的租車(chē)公司之一,通過(guò)撥打Thrifty的1-800-THRIFTY預訂電話(huà)號碼,客戶(hù)在應用OSR語(yǔ)音識別技術(shù)獲得高效服務(wù)的同時(shí),也獲得最優(yōu)惠的汽車(chē)租用費率。
捷通華聲公司供稿 CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
马关县|
周至县|
永州市|
家居|
陈巴尔虎旗|
沅陵县|
巴林左旗|
鹤山市|
嵊州市|
资阳市|
佛坪县|
文水县|
彰化市|
东安县|
常山县|
宁明县|
万山特区|
甘南县|
万年县|
秀山|
舒兰市|
芮城县|
邵武市|
吉木乃县|
开平市|
彰化市|
中阳县|
徐州市|
乡城县|
六枝特区|
高台县|
晴隆县|
拜泉县|
华坪县|
沙坪坝区|
松滋市|
杨浦区|
碌曲县|
潜山县|
扎兰屯市|
恩施市|
http://444
http://444
http://444
http://444
http://444
http://444