Nuance 7.0技術(shù)白皮書(shū)
2001/12/29
Nuance簡(jiǎn)介
Nuance 公司是為電信、企業(yè)和基于互聯(lián)網(wǎng)的系統提供自然語(yǔ)音接口軟件的企業(yè),處于全球領(lǐng)先地位。成功的應用例子包括:United Parcel Service (UPS)公司的包裹跟蹤系統、美國航空公司的航班信息系統、Charles Schwab公司提供股票投資和報價(jià)語(yǔ)音查詢(xún)的 VoiceBroker系統。
Nuance系統的獨特性和成功要歸功于多個(gè)因素。其中,軟件的結構、技術(shù)和實(shí)施方法對開(kāi)發(fā)商有特別意義。
系統結構概述
系統結構準確度高、伸縮空間大、質(zhì)量穩定可靠,是創(chuàng )建高質(zhì)量的語(yǔ)音識別系統的理想之選
結構
Nuance是采用基于分布式的結構,因此系統靈活、可靠,成本效率高。
先進(jìn)的核心功能
本系統具有內容豐富的功能集,其中有些功能是Nuance獨有的,可完成復雜的語(yǔ)音應用程序,能隨時(shí)隨地向呼叫者提供高質(zhì)量的服務(wù)。
配置選擇
Nuance擁有眾多的合作伙伴,且涉及面廣,能提供可與Nuance系統集成的平臺和開(kāi)發(fā)工具,因而顧客有廣闊的開(kāi)發(fā)空間和配置選擇余地。
本白皮書(shū)將幫助語(yǔ)音識別應用程序開(kāi)發(fā)商、集成商和技術(shù)決策者對Nuance結構獲得全面的理解。如要對Nuance產(chǎn)品、服務(wù)、工具、配置選擇有更多、更系統的了解,請參考《Nuance系統指南》介紹部分。
Nuance 系統結構概述
Nuance系統的客戶(hù)/服務(wù)機的結構可在Windows NT 及很多UNIX系統上運行。它可靈活伸縮,支持很小到很大的應用程序。利用這個(gè)結構,Nuance系統可在高效而節約成本地利用計算資源的同時(shí),支持特殊的交互式語(yǔ)音要求。下圖展示了Nuance系統的主要組件,隨后是每個(gè)部分的說(shuō)明。
Figure圖 1:Nuance的分布式結構
Nuance API:Nuance系統提供了一系列應用編程接口(API)。開(kāi)發(fā)者可利用這些API創(chuàng )建語(yǔ)音應用程序或與第三方平臺集成。這些語(yǔ)音應用程序和Nuance系統的組件可以進(jìn)行交互,例如通過(guò)其中的一個(gè)API和識別客戶(hù)端(RecClient) 進(jìn)行交互。Nuance系統提供的API包括SpeechObjects、RCEngine、VRecServer C++ API、RCAPI和Dialog Builder(對話(huà)框構造器)等。
Java SpeechChannel和SpeechObjects:SpeechObjects屬于Java類(lèi),它封裝了對話(huà)框單元,利用SpeechChannel這個(gè)Java對象進(jìn)行識別并提供音頻功能。這一Nuance 應用編程接口(API)讓您將應用程序的開(kāi)發(fā)集中在對話(huà)框層次,而不是客戶(hù)端的識別層次。
識別客戶(hù)端:RecClient是處理應用程序和Nuance系統間交互的過(guò)程,它處理音頻輸入和輸出,并支持有限的電話(huà)控制。音頻輸入可選擇取消回音然后作斷句。音頻輸出支持預錄音提示回放,為第三方的文本到語(yǔ)音轉換(TTS)系統提供了一個(gè)框架。
在特定配置下,呼叫控制和提示回放由Nuance系統外的組件控制,RecClient也可用于偷聽(tīng)模式。最后,RecClient將音頻傳給識別服務(wù)器(RecServer),并將事件和結果回傳給應用程序。
識別服務(wù)器:RecServer對從RecClient接收來(lái)的終端音頻進(jìn)行語(yǔ)音識別和自然語(yǔ)言理解。如果安裝了Verifier, 在需要校驗時(shí),RecServer同時(shí)對音頻執行聲紋鑒別。
為識別語(yǔ)音并為表達內容返回自然語(yǔ)言的解釋?zhuān)琑ecServer需要一系列的聲學(xué)模型和語(yǔ)法。聲學(xué)模型和語(yǔ)法幫助服務(wù)器確定說(shuō)話(huà)內容。語(yǔ)法也用于解釋口頭詞匯的意思。應用程序對RecServer加載包中的聲學(xué)模型和語(yǔ)法進(jìn)行指定。語(yǔ)法也可在運行時(shí)動(dòng)態(tài)地加載到RecServer上。
資源管理器:Nuance資源管理器執行實(shí)時(shí)載入平衡功能,以保證識別任務(wù)平均分配到可用的識別服務(wù)器,從而降低硬件需求,改善服務(wù)質(zhì)量。
數據庫:Nuance系統的應用程序使用數據庫來(lái)保存動(dòng)態(tài)語(yǔ)法和用戶(hù)資料。對于Nuance Verifier應用程序,數據庫還保存鑒別音紋。對于某些Nuance功能,視其應用程序情況,可能不需要數據庫。Nuance支持Oracle及符合ODBC(開(kāi)放數據接口)標準的數據庫。另外,通過(guò)定做的數據庫提供軟件,任何關(guān)系型數據庫均可集成到Nuance應用程序中。
編譯服務(wù)器:編譯服務(wù)器用于運行時(shí)動(dòng)態(tài)地編譯語(yǔ)法。編譯服務(wù)器只有在應用程序中使用了動(dòng)態(tài)語(yǔ)法功能或SpeechObjects對象才需要。為了避免最終用戶(hù)等待,動(dòng)態(tài)語(yǔ)法通常在改變時(shí)重新編譯,而不是在使用時(shí)編譯。動(dòng)態(tài)語(yǔ)法可在RecClient控制下重新編譯。另外,管理程序中獨立的編譯服務(wù)器API也支持動(dòng)態(tài)語(yǔ)法的編譯。
許可管理器:Nuance系統許要在多個(gè)機器上浮動(dòng),必須有許可管理器。運行許可管理器過(guò)程的機器充當許可服務(wù)器,負責向分布在網(wǎng)絡(luò )上的Nuance過(guò)程發(fā)放許可。
文本到語(yǔ)音轉換(TTS)服務(wù)器(可選):文本到語(yǔ)音轉換(TTS)服務(wù)器為RecClient提供了播放來(lái)自第三方TTS產(chǎn)品音頻的框架,它在RecClient和第三方TTS軟件間充當橋梁作用。在使用TTS服務(wù)器時(shí),應用程序可播放基于文本的動(dòng)態(tài)合成的音頻輸出,代替或者配合預錄音提示。Nuance APIs
語(yǔ)音識別過(guò)程
為了理解Nuance的結構,最重要的是大致了解識別過(guò)程,重點(diǎn)在客戶(hù)端、服務(wù)器和應用程序。請注意,本篇試圖展現的是一個(gè)典型的簡(jiǎn)單過(guò)程,和實(shí)際過(guò)程可能有出入,實(shí)際情況則視集成伙伴實(shí)施的電話(huà)功能而定。下圖為過(guò)程的步驟,隨后是每個(gè)步驟的說(shuō)明。
圖2:語(yǔ)音識別過(guò)程Figure 2
在進(jìn)行語(yǔ)音識別之前,每個(gè)應用實(shí)例必須建立一個(gè)從應用程序到客戶(hù)端的音頻輸入輸出的連接。
注:每條電話(huà)線(xiàn)必須總有一個(gè)應用實(shí)例和一個(gè)音頻連接。
當應用實(shí)例和語(yǔ)音通道就緒后,系統經(jīng)過(guò)下列步驟(如上圖所示):
1.RecClient端有電話(huà)到達,RecClient通知應用程序,系統接電話(huà)。
2.系統要求RecClient播放第一個(gè)提示,呼叫者作出反應。對文本到語(yǔ)音轉換提示,RecClient將要合成文本通過(guò)一個(gè)套接字發(fā)送到TTS服務(wù)器,并接收回傳的樣本。
3.為識別呼叫方的反應,RecClient向資源管理器發(fā)送服務(wù)器請求(同時(shí)緩存音頻數據),資源管理器將RecClient指向最合適的RecServer。
4.RecClient向RecServer發(fā)送一條識別請求。每個(gè)請求由音頻流和在應用中的語(yǔ)法條目組成。
該語(yǔ)法條目暗含了聲學(xué)模型,因為兩者被內置于RecServer加載的識別包里。
1.RecServer接收到請求后,執行識別任務(wù),然后將識別結果返回給RecClient。
2.在此期間,資源管理器對RecServer的當前載入的內容進(jìn)行監視。
3.RecClient將識別結果發(fā)送給應用程序。
4.應用程序作出相應的響應,例如,進(jìn)行數據庫查詢(xún)或請求RecClient播放另一個(gè)提示,作為對用戶(hù)的響應。
5.呼叫者作出反應;RecClient發(fā)送下一個(gè)識別請求(見(jiàn)步驟4)。
識別結果
每個(gè)識別完成后,Nuance系統將識別結果傳給應用程序,應用程序根據結果相應做出響應。識別結果包含豐富的信息供應用程序使用,包括:
下圖是識別結果的示意圖,包括被識別的文本、置信級別及自然語(yǔ)言解釋。
圖3:識別結果Figure 3
可以要求識別引擎產(chǎn)生一個(gè)可能的結果集,來(lái)代替單獨的最佳結果。辦法是使用Nuance系統的N-best識別處理方法,它提供可能性由高到低排列的可能識別結果列表。要求識別器返回的結果最大數目可以自己設定。運行時(shí),應用程序會(huì )對每個(gè)結果相應決定接受、拒絕、或者要求確認。
也可使用外部的應用知識內容來(lái)確定多結果中的哪一個(gè)是有效的。例如,經(jīng)紀業(yè)務(wù)應用程序,它的用戶(hù)投資隨時(shí)間變化而變化。系統可使用簡(jiǎn)單的語(yǔ)法來(lái)識別股票證券的名稱(chēng)。識別時(shí),系統產(chǎn)生一個(gè)最佳前N個(gè)股票名稱(chēng)的清單,標明假設的股票證券名稱(chēng)。應用程序然后將每個(gè)清單項目(由最佳到最差)和現有股票證券名稱(chēng)進(jìn)行比較,從而為該用戶(hù)找到可能性最大的一個(gè)。下圖展示的是這些多結果情況,每個(gè)結果都可能有它自身的已被識別的文本、NL解釋和置信度分值。在這一例中,請求了五個(gè)識別結果。
圖4:多識別結果Figure 4
識別客戶(hù)端
現在我們仔細地看看系統結構中的各個(gè)組件。本部分由語(yǔ)音獲取過(guò)程的概述開(kāi)始,然后對識別客戶(hù)端主要功能進(jìn)行深入探討。
獲取語(yǔ)音
RecClient是處理應用程序和Nuance系統之間的交互的過(guò)程。RecClient管理音頻輸入輸出(一般是通過(guò)電話(huà)線(xiàn))。RecClient支持有限的呼叫控制功能,為呼叫者提供激活Nuance識別服務(wù)的接口。語(yǔ)音應用程序開(kāi)發(fā)商通過(guò)API使用RecClient。重要的是,Nuance系統允許啟動(dòng)和運行多通道、多線(xiàn)程的RecClient。
下圖顯示了RecClient的主要特點(diǎn)。
圖5:識別客戶(hù)端Figure 5
在語(yǔ)音獲取過(guò)程中,識別客戶(hù)端主要負責下列的任務(wù):
也可選擇讓 RecClient執行諸如應答、轉接、掛機等電話(huà)控制。這些功能也可有IVR(交互語(yǔ)音響應)平臺來(lái)完成。
音頻提供器
音頻提供器是RecClient的一個(gè)主要組件,用于連接Nuance系統和音頻輸入輸出設備。基于電話(huà)的音頻提供器,同時(shí)也負責呼叫控制功能。Nuance支持各種不同的音頻提供器,包括:
對于Nuance的集成伙伴,您選擇的接口決定了所需的音頻提供器。如果要使用RCEngine接口,處理音頻輸入輸出由Nuance系統處理。在這種情況下:
電話(huà)功能
電話(huà)功能由Nuance系統或集成的IVR(交互式語(yǔ)音響應)平臺完成,視選擇哪一種配置方法而定。如果選擇和Nuance的IVR伙伴合作,電話(huà)由IVR平臺處理。如果選擇Dialogic、NMS、或 Aculab板卡,需使用Nuance接口來(lái)激活板上的電話(huà)功能。Nuance的電話(huà)功能包括:
1.打電話(huà)
2.回電話(huà)
3.檢測掛機
4.檢測 DTMF 撥號音
5.呼叫轉移
6.長(cháng)線(xiàn)連接(有限電話(huà)會(huì )議)
識別服務(wù)器
RecServer是根據來(lái)自RecClient的應用程序的請求,進(jìn)行語(yǔ)音識別和自然語(yǔ)言解釋的處理模塊。語(yǔ)音應用程序開(kāi)發(fā)商不能直接操縱RecServer,而是向它請求服務(wù)。開(kāi)發(fā)商也可使用IVR接口與Nuance系統聯(lián)絡(luò )。多數情況下,集成開(kāi)發(fā)商使用一種RecClient接口直接與RecServer聯(lián)系。如果集成應用程序必須直接操縱服務(wù)器,比如在使用舊式電話(huà)環(huán)境的情況下,則可使用VRSAPI將音頻直接傳給RecServer。
RecServer的任務(wù)
和RecClient一樣,RecServer的運作過(guò)程是在后臺完成運行的。RecServer是共享資源,由資源管理器進(jìn)行管理,主要執行三個(gè)任務(wù):語(yǔ)音識別、自然語(yǔ)言理解和聲紋鑒別。
RecServer響應來(lái)自RecClient的應用程序請求,執行語(yǔ)音識別功能。每個(gè)RecServer根據啟動(dòng)時(shí)加載的識別包中的一個(gè)或多個(gè)語(yǔ)法進(jìn)行識別。當應用程序請求識別時(shí),指定使用的識別語(yǔ)法。資源管理器跟蹤每個(gè)RecServer支持的語(yǔ)法并將識別請求轉向相應的服務(wù)器。
Nuance系統的最重要的功能之一是RecServer的自然語(yǔ)言理解能力。在應用程序開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)商指定多個(gè)檔位和一個(gè)特定語(yǔ)法。運行時(shí),RecServer不僅識別講話(huà)的內容(抄本), 而且通過(guò)在各個(gè)檔位中填入給定值來(lái)識別講話(huà)的意思(意義提取)。這種任務(wù)的分配簡(jiǎn)化了開(kāi)發(fā)過(guò)程,因為應用程序不負責解釋識別結果。
如果應用程序中使用了Nuance Verifier,RecServer在識別處理的同時(shí)執行聲紋鑒別。
RecServer和其它系統組件
下圖說(shuō)明RecServer和其它Nuance系統組件之間的交互情況。在每個(gè)交互過(guò)程中,由資源管理器建立連接,但RecServer和其它組件間的交互是直接進(jìn)行的。
圖6:識別服務(wù)器Figure 6
在啟動(dòng)時(shí),RecServer和資源管理器建立連接,并不斷地接受RecClient連接。當RecClient向資源管理器請求RecServer時(shí),資源管理器根據當前的負載、可用的識別包及其它因素選擇最合適的RecServer。
RecClient在通話(huà)時(shí)間內必須一直連接著(zhù)電話(huà)線(xiàn)路,因為RecClient必須獲取并處理完整的講話(huà)內容,并在整個(gè)通話(huà)中不斷適應講話(huà)者。相反,RecServer只在識別處理時(shí)才被使用。因此,RecServer是共享的資源,他們可以有效地利用CPU和系統的內存資源。
資源管理器
資源管理器執行實(shí)時(shí)載入平衡,保證識別和校驗任務(wù)平均分布到可用的RecServer上,從而降低硬件要求,提高服務(wù)質(zhì)量。資源管理器也是容錯的關(guān)鍵組件。當一個(gè)RecServer失效時(shí),資源管理器停止向其發(fā)送請求。
圖7:資源管理器Figure 7
所有的RecClient和RecServer均與資源管理器連接。資源管理器跟蹤每個(gè)服務(wù)器支持的識別包,監視服務(wù)器負載,對各個(gè)識別請求分配合適的服務(wù)器。
注:多數應用程序使用一個(gè)主資源管理器和一個(gè)輔資源管理器,以避免在某一點(diǎn)上的失效引起整個(gè)系統的關(guān)閉。一個(gè)資源管理器作為主要管理器,另一個(gè)作為后備,監視所有的RecServer并對所有請求作出響應。如果主資源管理器失效,另一個(gè)立即接管,不會(huì )降低系統的性能。
資源管理器還管理多個(gè)編譯服務(wù)器、TTS服務(wù)器和其它系統組件。
資源管理器和其它系統組件
資源管理器和其它系統組件的交互情形如下:
1.RecClient請求使用某個(gè)語(yǔ)法進(jìn)行識別
2.資源管理器找到具有該語(yǔ)法的最空閑的RecServer并通知RecClient。
3.RecClient動(dòng)態(tài)地連接該服務(wù)器并傳入斷句后的講話(huà)。
4.RecServer執行識別并將結果發(fā)送給RecClient。
RecClient和資源管理器間的磋商只需要很短時(shí)間,對應用程序是透明的。在此期間,RecClient將語(yǔ)音緩存,所以音頻不會(huì )丟失。資源管理器連接是動(dòng)態(tài)的,所以當RecClient和RecServer處理啟動(dòng)時(shí),他們各自和資源管理器連接,結果,每個(gè)RecClient和RecServer立即就緒,可以發(fā)出或者處理識別請求。這種設置允許在資源管理器連續運行的情況下,按需要增加或減少客戶(hù)或服務(wù)機。
動(dòng)態(tài)語(yǔ)法
是Nuance結構的一個(gè)重要部分,它能被運行應用程序動(dòng)態(tài)創(chuàng )建和修改。動(dòng)態(tài)語(yǔ)法使系統能識別其它的類(lèi)型��因為有些系統中要識別的項目必須等到運行時(shí)才能確定,這些例子有:
1.在某些應用程序中,要根據數據庫中可變化的項目或者其它只有運行時(shí)才能知道的動(dòng)態(tài)數據來(lái)創(chuàng )建、更新語(yǔ)法。
2.為個(gè)別用戶(hù)定做的應用程序,比如帶有每個(gè)人的私人地址表的撥號系統,或帶有可定做收款人清單的帳單結算系統。
可以通過(guò)程序或者利用語(yǔ)音和基于文本的接口由用戶(hù)輸入,將新的短語(yǔ)加到動(dòng)態(tài)語(yǔ)法中。通過(guò)語(yǔ)音接口,即念出短語(yǔ)來(lái)增加短語(yǔ)的過(guò)程,叫登記。通過(guò)這種機制創(chuàng )建的語(yǔ)法對講話(huà)者有依賴(lài)性,因為發(fā)音是依據用戶(hù)的口頭輸入產(chǎn)生的,只能用于對該講話(huà)者的識別。由GSL或基于文本接口創(chuàng )建的動(dòng)態(tài)語(yǔ)法不依賴(lài)于講話(huà)者:發(fā)音通過(guò)詞典和自動(dòng)發(fā)音生成器生成,適用于任何講話(huà)者。
動(dòng)態(tài)語(yǔ)法的工作方式
本部分詳述動(dòng)態(tài)語(yǔ)法和其它Nuance系統組件之間的交互。下圖說(shuō)明處理的各個(gè)步驟,隨后是每個(gè)步驟的說(shuō)明。
圖8:動(dòng)態(tài)語(yǔ)法Figure 9
1.語(yǔ)音應用程序通過(guò)RecClient將識別請求發(fā)送給RecServer。
2.RecServer從數據庫中讀取適當的動(dòng)態(tài)語(yǔ)法,和時(shí)間戳一起存入緩沖區。
3.如果用戶(hù)輸入要求增加語(yǔ)法,例如,用戶(hù)在個(gè)人撥號器中加了人名,RecClient將該信息發(fā)送到編譯服務(wù)器。
4.編譯服務(wù)器進(jìn)行必要的語(yǔ)法更新。
5.當RecServer接收到另外的請求時(shí),使用動(dòng)態(tài)語(yǔ)法時(shí)間戳檢查數據庫中的語(yǔ)法是否已經(jīng)更新。如果該語(yǔ)法已經(jīng)改變,則RecServer更新其本地副本。否則,它利用緩存的副本處理識別請求。
除了由語(yǔ)音應用程序進(jìn)行動(dòng)態(tài)更新外,有的系統通過(guò)其它方式接收輸入,例如,交互性的互聯(lián)網(wǎng)址。在這種情況下,單獨運行一個(gè)管理過(guò)程,當輸入引起變化時(shí)更新語(yǔ)法。和前面一樣,RecServer將緩存語(yǔ)法的時(shí)間戳和數據中的當前語(yǔ)法進(jìn)行比較,并作必要的信息更新。
動(dòng)態(tài)語(yǔ)法存儲
每個(gè)動(dòng)態(tài)語(yǔ)法均作為一條記錄存放,在修改時(shí)增量編譯。這種存儲機制使應用程序可以快速地加載動(dòng)態(tài)語(yǔ)法,同時(shí)提供了更新語(yǔ)法內容和保存修改的方便接口。例如,在個(gè)人快速撥號應用程序中,可為每個(gè)呼入的用戶(hù),加載經(jīng)常通話(huà)的個(gè)性化名單;用戶(hù)可以修改該名單,變動(dòng)存入數據庫,以供下次用戶(hù)呼叫時(shí)使用。
Nuance產(chǎn)品完全兼容Oracle 和 ODBC(開(kāi)放數據接口) (Microsoft Windows NT版)。Nuance系統也包括API,用于創(chuàng )建定做的數據接口,以存取未直接支持的其它類(lèi)型的關(guān)系型數據庫。為了方便使用,Nuance系統也附帶了一個(gè)文件系統型數據庫,供開(kāi)發(fā)、原型化和演示用。文件型數據庫不支持分發(fā)。
系統結構的優(yōu)點(diǎn)
Nuance 7.0的分布式結構具有伸縮性強、成本效率高和配置靈活等優(yōu)點(diǎn),具有支持數百萬(wàn)呼叫的能力;Nuance健壯的客戶(hù)/服務(wù)機結構使語(yǔ)音識別應用程序威力強大,具有極其高效的容錯性和載入平衡能力,保證了應用程序的可靠性。Nuance結構具有如下結構上的優(yōu)點(diǎn):
1.分布式結構。資源管理器在RecServer間進(jìn)行載入均衡,從而保證硬件的利用效率。對CPU強度大的識別可以由非運行應用程序和音頻接口的遠程機器來(lái)執行。這種結構優(yōu)化了內存和CPU資源的使用,因為每個(gè)RecServer可以支持多個(gè)客戶(hù)端,資源管理器可以將呼叫平均分布到幾個(gè)RecServer上。另外,對于小型系統或者原型,可在同一臺機上運行RecClient和RecServer。
2.高密度接口。將客戶(hù)端的少量處理從CPU密集型的服務(wù)器處理隔離,允許客戶(hù)端端有高密度的接口又能提高服務(wù)器端CPU的使用效率。
3.容錯和可靠性。即使個(gè)別服務(wù)器失效,也不會(huì )使系統崩潰,甚至不會(huì )錯過(guò)一個(gè)電話(huà)。當一個(gè)RecServer失效時(shí),資源管理器自動(dòng)停止向其發(fā)送請求,當服務(wù)器恢復時(shí),自動(dòng)開(kāi)始向它發(fā)送請求。呼叫者不會(huì )被斷線(xiàn),最多是系統要求其重復最后一句話(huà),并轉向另外一個(gè)可用的服務(wù)器。
4.維護方便。可以關(guān)閉一個(gè)RecServer進(jìn)行維修,而對整個(gè)系統的性能沒(méi)有影響,或者影響很小。一些類(lèi)型的維護甚至可以不關(guān)閉RecServer進(jìn)行。
5.無(wú)縫的鑒別功能。Nuance系統將識別過(guò)程和鑒別處理集成在一起。所以資源管理器不僅對所有RecServer的識別負載,同時(shí)還有鑒別負載,進(jìn)行均衡。這個(gè)方案比分開(kāi)進(jìn)行校驗和識別處理的方案具有更高的效率、需要更少的硬件。
6.可伸縮性。隨著(zhù)呼叫量的增加,可增加RecServer、RecClient和應用的實(shí)例,無(wú)須停止任何運行著(zhù)的應用程序或關(guān)閉IVR系統。
Nuance公司簡(jiǎn)介
Nuance公司是自然語(yǔ)音接口軟件的佼佼者。使用自然語(yǔ)音接口軟件,人們可以通過(guò)電話(huà)方便安全地獲取信息、服務(wù)并進(jìn)行交易。每天,千千萬(wàn)萬(wàn)的人通過(guò)撥打運行Nuance公司語(yǔ)音識別、語(yǔ)言理解和聲紋鑒別軟件的電話(huà),進(jìn)行出游預訂、股票交易、與其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)系統進(jìn)行交往等活動(dòng)。美國航空、Bell Atlantic、Charles Schwab、家庭購物網(wǎng)絡(luò )、Lloyds TSB、Sears、UPS等大公司使用Nuance的軟件來(lái)為客戶(hù)提供更好的服務(wù),同時(shí)也大幅度降低了成本。Nuance公司是語(yǔ)音商務(wù)聯(lián)盟的發(fā)起成員,并領(lǐng)導創(chuàng )建了語(yǔ)音應用程序開(kāi)發(fā)的開(kāi)放標準。Nuance公司的總部設在加州硅谷的Menlo Park,世界各地均有分部和合作伙伴,提供多語(yǔ)種支持的解決方案。來(lái)體驗Nuance公司最新的技術(shù)吧,請打電話(huà)1-888-NUANCE-8或瀏覽公司的網(wǎng)址www.nuance.com。
NDN - Nuance開(kāi)發(fā)商網(wǎng)絡(luò )
Nuance Developer Network (NDN - Nuance開(kāi)發(fā)商網(wǎng)絡(luò )) 是語(yǔ)音識別行業(yè)第一個(gè)開(kāi)發(fā)商網(wǎng)絡(luò ),它向成員提供最新的產(chǎn)品發(fā)布信息、培訓、在線(xiàn)技術(shù)論壇,以及和其它開(kāi)發(fā)商進(jìn)行想法和方案共享的機會(huì )。通過(guò)www.nuance.com or extranet.nuance.com 網(wǎng)址,可以下載最新的Nuance產(chǎn)品和工具。
附錄A:部分功能一覽
海量詞匯、獨立于講話(huà)者的健壯識別功能
Nuance系統能可靠地對多種語(yǔ)言進(jìn)行大詞匯量的識別,并可提供識別結果的置信度。該系統對商業(yè)上使用的大量詞匯提供最準確的語(yǔ)音識別技術(shù)。利用Nuance系統開(kāi)發(fā)的應用程序,在市場(chǎng)上具有最高的準確率。生產(chǎn)中的應用程序經(jīng)測試,準確性超過(guò)96%。
內建的自然語(yǔ)言理解
通過(guò)Nuance系統可以開(kāi)發(fā)自然語(yǔ)言理解系統,它以句子為輸入,返回句子意義的解釋性表達。應用程序可以根據用戶(hù)的請求采取相應的動(dòng)作。Nuance系統也提供基于檔次的置信評分,它能更加接近地判別可能準確(或不準確)識別的短語(yǔ)各部分。然后可更加自然和有效地修改應用程序,處理錯誤檢查或重新提示。
基于主機的客戶(hù)/服務(wù)機結構
Nuance系統基于開(kāi)放式客戶(hù)/服務(wù)機結構,特別為大型應用程序所需的健壯性和可伸縮性而設計。呼叫者的講話(huà)由客戶(hù)端收集,而識別和鑒別處理的負載被平均分配到網(wǎng)絡(luò )上的多個(gè)分開(kāi)的服務(wù)器上。
集成的講話(huà)人校驗
聲紋鑒別使用戶(hù)可通過(guò)其聲音的生物學(xué)統計特征進(jìn)行校驗。Nuance的Verifier允許同時(shí)進(jìn)行講話(huà)識別和用戶(hù)甄別。Nuance系統可對多種講話(huà)進(jìn)行校驗,包括自定義口令、數字和應用程序命令。系統檢查要求的話(huà)是否已講,同時(shí)根據以前保存的音紋對用戶(hù)進(jìn)行辨別。
動(dòng)態(tài)語(yǔ)法
動(dòng)態(tài)語(yǔ)法是由運行的應用程序創(chuàng )建和修改的語(yǔ)法。這在應用程序詞匯必須在運行時(shí)才能完全確定的情況下是必不可少的。
無(wú)線(xiàn)和免提準確性
Nuance 7.0提供強壯的無(wú)線(xiàn)和免提電話(huà)處理功能,在噪雜環(huán)境下有特別高的準確率,語(yǔ)音識別高質(zhì)可靠。
單個(gè)詞匯校正
也叫按檔置信評分,如果一個(gè)長(cháng)句中的一個(gè)詞語(yǔ)未被識別,應用程序可提示用戶(hù)重復該片段,而不是整個(gè)句子。
熱詞識別
熱詞識別使系統能對講話(huà)者進(jìn)行偷聽(tīng),等待特定的詞匯或短語(yǔ),將控制交還該應用程序。可在應用程序使用該功能,使識別器能夠靜靜傾聽(tīng),直到用戶(hù)說(shuō)出特定的短語(yǔ)進(jìn)行請求時(shí)才與用戶(hù)交互。
智能斷句
斷句是對進(jìn)來(lái)的樣本流確定語(yǔ)句的起始和終止的處理過(guò)程。當找到語(yǔ)句的起始和終止點(diǎn)后,語(yǔ)句區向前后分別延伸預先確定的長(cháng)度。一旦檢測到語(yǔ)句的起始點(diǎn),樣本開(kāi)始流向RecServer,直到發(fā)現語(yǔ)句的終止點(diǎn)。通過(guò)這種方式,RecServer在用戶(hù)仍在講話(huà)的同時(shí),實(shí)際上已經(jīng)開(kāi)始處理講話(huà)的內容,而又不處理講話(huà)的起止處多余的空白,從而節約CPU時(shí)間和網(wǎng)絡(luò )帶寬。
打斷功能
打斷功能使用戶(hù)可以打斷提示、作出響應,無(wú)需等到提示結束播放。打斷功能使用戶(hù)和系統間的交流更加快捷、自然,特別是系統的經(jīng)常用戶(hù)。
N-Best處理
對于有些應用程序,可能需要識別引擎產(chǎn)生可能的識別結果集,而不是一個(gè)最好的結果。Nuance系統的N-best識別處理方法便有這個(gè)功能,它提供了可能的識別結果列表,并按可能性從高到低排列。
語(yǔ)法概率
Nuance系統允許對呼叫者所講的特定詞語(yǔ)或短語(yǔ)的在語(yǔ)法中的概率進(jìn)行指定。當被講的詞語(yǔ)或短語(yǔ)的概率可根據實(shí)際使用進(jìn)行估計時(shí),非常有用。對語(yǔ)法增加概率可提高識別的準確率和速度。
降低噪音
當進(jìn)來(lái)的呼叫包含穩定的背景噪音時(shí),Nuance系統通過(guò)一種機制,使識別服務(wù)器更準確地進(jìn)行識別。識別服務(wù)器將進(jìn)來(lái)的話(huà)語(yǔ)進(jìn)行增強,以有效地將語(yǔ)氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過(guò)濾。如果相當數量的電話(huà)均含有穩定的背景噪聲,比如在汽車(chē)上免提打電話(huà)時(shí),這個(gè)機制效果較理想。
提示回放
Nuance系統允許播放預先錄好的提示和由文本到語(yǔ)音轉換系統產(chǎn)生的提示。如果應用程序使用多個(gè)文本到語(yǔ)音轉換服務(wù)器,資源管理器將對這些服務(wù)器的轉換負載進(jìn)行平衡,以提高硬件效率。
SNMP支持
系統為遠程監控提供了簡(jiǎn)單網(wǎng)絡(luò )管理協(xié)議(SNMP)支持,獨具可視化工具,便于進(jìn)行配置、管理和操作。
用戶(hù)資料
用戶(hù)資料將特定呼叫者的所有有關(guān)信息結合在一條數據庫記錄里,從而提供了一個(gè)方便的機制。可存儲的信息包括聲紋鑒別的聲紋或您想增加的任何特定應用的數據。
Nuance公司供稿 CTI論壇編輯
Nuance發(fā)布Vocalizer 5.0文本語(yǔ)音轉換方案 2009-09-04 |
化繁為簡(jiǎn),讓手機“一切行動(dòng)聽(tīng)指揮” 2009-08-13 |
Nuance語(yǔ)音識別技術(shù)助力醫學(xué)中心節省開(kāi)支 2009-08-12 |
Nuance攜手IBM提供先進(jìn)的語(yǔ)音識別解決方案 2009-08-05 |
Nuance語(yǔ)音識別技術(shù)將進(jìn)軍中國 2009-06-17 |