2008/08/11
一、產(chǎn)品概述
InterReco2.0在復雜環(huán)境的識別效果均有不俗表現,產(chǎn)品考慮了呼叫中心、增值服務(wù)中的不同應用特點(diǎn),易于開(kāi)發(fā)集成及進(jìn)行業(yè)務(wù)開(kāi)發(fā),主要功能有如下:
- 大詞匯量、獨立于說(shuō)話(huà)人的健壯識別功能
- 端點(diǎn)檢測與打斷(End Pointer && Barge-In)
- 多識別結果和置信度(N-Best && CM)
- 語(yǔ)音錄入(Voice Enrollment)
- 動(dòng)態(tài)語(yǔ)法
- 呼叫日志(Call Logging)
- 說(shuō)話(huà)人自適應
- 多槽識別
- 模型自適應
識別系統能對多種語(yǔ)言進(jìn)行大詞匯量的識別,在中文識別方面使用了訊飛TTS引擎使用的詞典和文本分析技術(shù),能夠對語(yǔ)法內容進(jìn)行分詞處理,保證多音字的識別效果。
端點(diǎn)檢測是對輸入的音頻流確定語(yǔ)句的起始和終止的處理過(guò)程。當找到語(yǔ)句的起始和終止點(diǎn)后,語(yǔ)句區向前后分別延伸預定的長(cháng)度。一旦檢測到語(yǔ)句的起始點(diǎn),語(yǔ)音開(kāi)始流向識別引擎,直到檢測到語(yǔ)句的終止點(diǎn)。通過(guò)這種方式,識別引擎在用戶(hù)在講話(huà)的同時(shí),已經(jīng)開(kāi)始處理講話(huà)的內容,而又不需要處理語(yǔ)音的起止處多余的靜音,從而節約CPU時(shí)間和網(wǎng)絡(luò )帶寬。
打斷功能使用戶(hù)可以打斷提示、作出響應,無(wú)需等到提示音結束播放。打斷功能使得用戶(hù)和系統間的交流更加快捷、自然,特別是系統的熟練用戶(hù)。
對于有些應用程序,可能需要識別引擎產(chǎn)生可能的識別結果集,而不是一個(gè)最好的結果。系統提供了可能的識別結果列表,并按可能性從高到低排列。
語(yǔ)音識別引擎在返回識別結果時(shí)會(huì )攜帶該識別結果的置信度,對多個(gè)識別結果給出其可能性的指標,準確的置信度輸出可以為識別結果的分析和后續處理提供依據,改善在用戶(hù)語(yǔ)音不清晰、語(yǔ)義不明確時(shí)的效果體驗。
允許用戶(hù)通過(guò)本人語(yǔ)音來(lái)向動(dòng)態(tài)語(yǔ)法增加命令或詞表。這種方式不但能夠有效利用用戶(hù)個(gè)性化的語(yǔ)音,提高系統的識別準確率;而且能夠提高用戶(hù)輸入詞表的方便性和靈活性。例如,在語(yǔ)音通訊錄的應用中,用戶(hù)可以通過(guò)語(yǔ)音的方式來(lái)添加通訊錄,從而使用戶(hù)可以隨時(shí)隨地修改自己的通訊錄。
動(dòng)態(tài)語(yǔ)法是由應用程序在運行時(shí)動(dòng)態(tài)創(chuàng )建和修改的語(yǔ)法。這在應用程序詞匯必須在運行時(shí)才能完全確定的情況下是必不可少的。
語(yǔ)音識別的調用日志在系統中有著(zhù)非常重要的作用,該日志記錄了輸入的音頻、加載的語(yǔ)法、識別過(guò)程的中間結果、識別模塊調用過(guò)程、識別使用的各種參數、識別結果以及當時(shí)的系統環(huán)境信息。這些數據是效果分析的依據,詳盡的Call-Log是效果優(yōu)化的基礎。
當用戶(hù)多次使用同一識別系統時(shí),識別引擎能夠逐步適應其口音,使該使用者的識別效果逐步提高。同時(shí),如果預先給定特定說(shuō)話(huà)人的數據,系統可以針對特定說(shuō)話(huà)人進(jìn)行自適應訓練以獲得更加適合其發(fā)音特征的語(yǔ)音模型,使該說(shuō)話(huà)人在使用系統時(shí),識別效果更好。
語(yǔ)音識別的槽(Slot)代表一個(gè)關(guān)鍵字,即在一次識別中可以識別多個(gè)關(guān)鍵字,這種識別模式可以提高語(yǔ)音識別的使用效率和用戶(hù)體驗。
針對每個(gè)應用專(zhuān)門(mén)優(yōu)化通用模型從而更加適合應用:包括方言和口音的說(shuō)話(huà)人特征,無(wú)線(xiàn)設備、VoIP設備等通道特征,詞匯和環(huán)境噪聲等應用特征。
CTI論壇編輯