首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

語(yǔ)音識別標準之痛

章森 王偉 華紹和 2006/06/19

  語(yǔ)音技術(shù)涉及到語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識別、語(yǔ)音技術(shù)應用等多個(gè)技術(shù)領(lǐng)域。本文討論的不是語(yǔ)音編碼的標準問(wèn)題,而是對語(yǔ)音合成與識別領(lǐng)域的技術(shù)標準做一個(gè)研究與探討。

  語(yǔ)音技術(shù)涉及到語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識別、語(yǔ)音技術(shù)應用等多個(gè)技術(shù)領(lǐng)域。目前,關(guān)于語(yǔ)音編碼,國際標準化組織ISO和國際電信聯(lián)盟ITU上已經(jīng)制訂了一系列的技術(shù)標準,分別應用在有線(xiàn)通信、移動(dòng)通信、數字音響等領(lǐng)域。但是,關(guān)于語(yǔ)音合成與識別技術(shù)的標準還沒(méi)有一個(gè)統一的規范,ISO和ITU在這些領(lǐng)域也沒(méi)有頒布技術(shù)標準和規范。雖然有些標準化組織、研究機構和大公司提出了各自的技術(shù)規范草案,但是沒(méi)有得到廣泛的承認和支持。國際上,許多跨國公司,如IBM、Microsoft、AT&T、Naunce、Sun System等對語(yǔ)音技術(shù)的研究已經(jīng)持續了多年,對制定語(yǔ)音技術(shù)領(lǐng)域的標準非常關(guān)心并積極參與,希望能把各自公司的研究成果納入到技術(shù)規范和標準中去,以期在激烈的競爭中處于技術(shù)的制高點(diǎn)。現在,與互聯(lián)網(wǎng)有關(guān)的語(yǔ)音技術(shù)應用領(lǐng)域,相關(guān)的國際語(yǔ)音標準發(fā)展迅速,形成了VoiceXML和SALT兩大語(yǔ)音標準陣營(yíng),并各自都獲得了廣泛的支持。但是,對語(yǔ)音合成與識別的核心技術(shù),如系統框架、接口規范等還沒(méi)有統一的標準。本文不討論語(yǔ)音編碼的標準問(wèn)題,而是對語(yǔ)音合成與識別領(lǐng)域的技術(shù)標準做一個(gè)初步的探討。

  語(yǔ)音技術(shù)標準的三個(gè)層面

  雖然目前國際上還沒(méi)有統一的、得到廣泛承認和支持的語(yǔ)音合成與識別領(lǐng)域的技術(shù)標準,但是,這方面的研究工作發(fā)展迅速,近幾年推出了許多研究成果,特別是W3C組織積極推動(dòng)并發(fā)布了多個(gè)語(yǔ)音技術(shù)應用方面的規范或標準。例如, W3C發(fā)布了Voice Browser(語(yǔ)音瀏覽器)標準的草案。在這個(gè)標準中,Voice Browser標準(草案)定義了幾種支持語(yǔ)音輸入和輸出的鏈接語(yǔ)言。這些鏈接語(yǔ)言使語(yǔ)音設備可以跨越各種硬件和軟件平臺,特別是設計了關(guān)于對話(huà)、語(yǔ)音識別語(yǔ)法、語(yǔ)音合成、自然語(yǔ)言語(yǔ)義和搜集可重復使用的對話(huà)組件的鏈接語(yǔ)言。這些鏈接語(yǔ)言和組件就構成了未來(lái)語(yǔ)音界面框架。現在,這個(gè)標準組中的參加成員有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于語(yǔ)音識別與合成技術(shù)還處在迅速發(fā)展階段,制訂出一套合適的技術(shù)標準很不容易。關(guān)于語(yǔ)音技術(shù)(除了語(yǔ)音編碼)有關(guān)標準的制定工作主要集中在三個(gè)層面。

  語(yǔ)音技術(shù)應用: 在這個(gè)層面上,主要規定在應用開(kāi)發(fā)中如何使用語(yǔ)音合成與識別技術(shù),即應用程序與語(yǔ)音合成/識別引擎之間的通信協(xié)議/語(yǔ)言,許多跨國公司積極參加了這個(gè)層面的規范與標準的起草、制訂工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推動(dòng)并且形成了VoiceXML和SALT兩大語(yǔ)音標準陣營(yíng)。從開(kāi)發(fā)者的角度看,這些標準都是面向應用系統開(kāi)發(fā)用的。萬(wàn)維網(wǎng)聯(lián)盟W3C主持了VoiceXML的起草和制定工作,并從2000年開(kāi)始陸續發(fā)布了VoiceXML的多個(gè)版本,其中包括了語(yǔ)音識別語(yǔ)法規范和語(yǔ)音合成標記語(yǔ)言等。這些標準不僅使應用程序可以移植,而且還能夠使語(yǔ)法相關(guān)聯(lián)。VoiceXML 2.0是一種標記語(yǔ)言,用于建立話(huà)音界面,相當于帶語(yǔ)音功能的HTML。現在已經(jīng)有數百個(gè)大的廠(chǎng)商開(kāi)發(fā)了基于VoiceXML的應用程序。SALT表示語(yǔ)音應用標記語(yǔ)言,它是在現有的標記語(yǔ)言,如在HTML、XHTML的基礎上,增加了對語(yǔ)音和多媒體功能的支持而形成的。對語(yǔ)音應用,它主要關(guān)注的是如何通過(guò)電話(huà)得到語(yǔ)音服務(wù)。2002年,SALT聯(lián)盟論壇發(fā)布了SALT技術(shù)規范的草案,并且把它提交給了W3C,希望能成為技術(shù)標準。參加和支持SALT技術(shù)規范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。

  語(yǔ)音識別/合成系統性能評測標準: 美國國家技術(shù)與標準研究所(NIST)主持了這個(gè)方面的工作。從20世紀90年代中期開(kāi)始,NIST就開(kāi)始組織語(yǔ)音識別/合成系統的性能評測工作。由于語(yǔ)音識別/合成系統的實(shí)現技術(shù)各種各樣,對它們的評測實(shí)際上是相當困難的。20世紀90年代初期的時(shí)候,語(yǔ)音識別/合成系統大量推出,但往往出現下面的情況: 某個(gè)系統在推出時(shí),聲稱(chēng)該系統有很高的性能,但實(shí)際應用的時(shí)候其性能與宣傳的差別很大。因此,NIST認為應制定出一套評價(jià)語(yǔ)音識別/合成系統的技術(shù)標準,讓所有的語(yǔ)音識別/合成系統在這套評測標準下進(jìn)行評估,以得到客觀(guān)的性能評價(jià)指標。在該領(lǐng)域,NIST陸續制定了評價(jià)語(yǔ)音識別/合成系統的詞錯誤率WER的計算規范,語(yǔ)言模型的復雜度的計算規范,訓練和測試語(yǔ)料的選取,系統響應時(shí)間標準,合成語(yǔ)音自然度的評價(jià)規范,測試程序的規范等。近年來(lái),NIST又制定了針對其它語(yǔ)種(如,漢語(yǔ),日語(yǔ)等)的評價(jià)標準。NIST的評價(jià)標準迅速得到了語(yǔ)音識別/合成領(lǐng)域開(kāi)發(fā)者的支持,越來(lái)越多的大公司積極參加NIST組織的評測活動(dòng),同時(shí)也推動(dòng)了語(yǔ)音識別/合成技術(shù)的發(fā)展。國內的“863”智能人機接口專(zhuān)家組也開(kāi)展了類(lèi)似的工作,陸續制定了針對漢語(yǔ)語(yǔ)音識別與合成系統性能的評價(jià)規范。

  語(yǔ)音識別/合成引擎及其開(kāi)發(fā)接口: 在這個(gè)層面上還沒(méi)有一個(gè)技術(shù)標準或規范被廣泛承認和采納。ISO、ITU、NIST、W3C等標準化組織都沒(méi)有在該方面推出技術(shù)標準或規范。實(shí)際上,這方面的工作涉及到許多語(yǔ)音識別/合成系統的具體實(shí)現問(wèn)題,而系統的實(shí)現方法千變萬(wàn)化,難以用一個(gè)統一的規范和標準來(lái)規范。雖然沒(méi)有語(yǔ)音識別/合成引擎及其開(kāi)發(fā)接口的統一的標準和規范,但一些開(kāi)發(fā)廠(chǎng)商和研究機構還是制定了各自的規范,在各自的語(yǔ)音系統中得到了實(shí)現,并隨著(zhù)語(yǔ)音識別/合成系統的推出而發(fā)布。

  IBM在其推出的語(yǔ)音識別與合成引擎ViaVoice中規定了開(kāi)發(fā)接口,提供了幾百個(gè)開(kāi)發(fā)接口函數。Microsoft推出了基于它的語(yǔ)音識別與合成引擎開(kāi)發(fā)語(yǔ)音應用的接口Speech SDK, 在其中也提供了類(lèi)似的開(kāi)發(fā)接口函數。但是,IBM和Microsoft的語(yǔ)音識別與合成引擎的實(shí)現細節沒(méi)有公開(kāi),也沒(méi)有提供這方面的技術(shù)規范。另外,美國的CMU大學(xué)、英國劍橋大學(xué)電子工程系的HTK開(kāi)發(fā)組都發(fā)布了開(kāi)放式的語(yǔ)音識別與合成引擎的源碼以及相應的開(kāi)發(fā)工具,它們的語(yǔ)音識別與合成引擎的實(shí)現方法紛紛被眾多的開(kāi)發(fā)者所借鑒,從而形成了業(yè)界很有影響的開(kāi)發(fā)規范,但是,這些規范也不是標準。目前,有許多語(yǔ)音識別與合成引擎,但是沒(méi)有提供實(shí)現的技術(shù)規范,因此,這些系統的實(shí)現和提供的接口只是遵守各自特殊的規定,沒(méi)有規范化并得到廣泛的應用。

  中文語(yǔ)音技術(shù)標準現狀

  制訂中文語(yǔ)音技術(shù)的有關(guān)標準,對促進(jìn)中文語(yǔ)音技術(shù)應用、推動(dòng)中文語(yǔ)音產(chǎn)業(yè)發(fā)展、增強民族軟件核心競爭力均具有非常重要的意義。國家信息產(chǎn)業(yè)部、“863”專(zhuān)家組、國家技術(shù)監督局和國家信息標準化委員會(huì )分別于2001年、2002年、2003年召開(kāi)了三屆語(yǔ)音標準研討會(huì ),并于2003年11月由信息產(chǎn)業(yè)部科技司正式下文成立了“中文語(yǔ)音交互技術(shù)標準工作組”。

  “中文語(yǔ)音交互技術(shù)標準工作組”是由國內產(chǎn)、學(xué)、研、用等企事業(yè)單位以及大專(zhuān)院校等自愿聯(lián)合組織、經(jīng)信息產(chǎn)業(yè)部科技司批準成立的、組織開(kāi)展中文語(yǔ)音交互領(lǐng)域技術(shù)標準制定和研究活動(dòng)的非營(yíng)利性技術(shù)工作組織。該工作組的主要工作任務(wù)是研究并制定與中文語(yǔ)音交互技術(shù)有關(guān)的數據交換格式、系統架構與接口、系統分類(lèi)與評測及數據庫格式與標注等方面的標準。目前,語(yǔ)音合成和語(yǔ)音識別通用標準已正式立項為國家標準,報批稿已經(jīng)完成,多個(gè)產(chǎn)業(yè)相關(guān)的應用技術(shù)標準也正在制定之中。

  國家“863”智能人機接口專(zhuān)家組在20世紀90年代中后期邀請國內的一些研究機構和大學(xué)制訂了針對漢語(yǔ)語(yǔ)音識別與合成系統的評價(jià)規范,該評價(jià)規范應用到了歷屆對“863”支持的漢語(yǔ)語(yǔ)音識別與合成系統的評價(jià)過(guò)程中。如果從語(yǔ)音識別與合成技術(shù)標準的三個(gè)層面考察,國內在該領(lǐng)域的研究工作主要集中在系統性能的評價(jià)規范的制訂上,至今還沒(méi)有正式實(shí)施的國家標準。但是,隨著(zhù)國內的語(yǔ)音應用開(kāi)發(fā)地迅速發(fā)展,沒(méi)有一個(gè)統一的技術(shù)規范或標準會(huì )造成許多開(kāi)發(fā)重復,資源浪費。

  例如,如果語(yǔ)音識別與合成引擎支持媒體資源控制協(xié)議(MRCP), 語(yǔ)音應用開(kāi)發(fā)者采用MRCP,IVR和語(yǔ)音識別與合成引擎開(kāi)發(fā)廠(chǎng)商之間的專(zhuān)有用的連接器就不需要了。再如,隨著(zhù)語(yǔ)音技術(shù)和應用市場(chǎng)需求增大的同時(shí),面臨著(zhù)復雜系統互聯(lián)的問(wèn)題。在系統的互聯(lián)接口、內容交換數據格式等方面沒(méi)有一個(gè)大家共同遵循的標準,其開(kāi)發(fā)難度、維護難度和運營(yíng)難度是非常巨大的; 沒(méi)有一個(gè)大家共同遵循的標準,語(yǔ)音合成/識別引擎與電話(huà)設備、后臺數據庫、地理信息、無(wú)線(xiàn)定位等其他組成部分完成通信也是非常困難的,這些都成了阻礙語(yǔ)音應用大規模發(fā)展的絆腳石。因此,制訂和研究漢語(yǔ)語(yǔ)音技術(shù)領(lǐng)域的標準已迫在眉睫。

  技術(shù)標準的主要內容

  為了適應網(wǎng)上語(yǔ)音瀏覽、語(yǔ)音信息檢索、交互式語(yǔ)音應用的發(fā)展需求,語(yǔ)音識別與合成技術(shù)的標準制訂工作的重點(diǎn)目前應該集中語(yǔ)音技術(shù)應用層面和語(yǔ)音識別/合成引擎及其開(kāi)發(fā)接口上。這樣的一個(gè)標準或規范必須是有代表性的,通用的,被廣泛接受和采用的; 顯然,制定一個(gè)這樣的標準不能閉門(mén)造車(chē),要有標準的使用機構或潛在的使用機構參與,還必須與國際上已有的類(lèi)似的標準接軌,與國際上的標準化機構,如ISO、W3C、ITU等密切合作。值得注意的是,語(yǔ)音識別/合成的實(shí)現算法千差萬(wàn)別,該領(lǐng)域的標準或規范只能提供一個(gè)實(shí)現框架,沒(méi)有必要對具體的實(shí)現算法和技術(shù)細節進(jìn)行約束。另外,語(yǔ)音技術(shù)標準還應該與具體應用無(wú)關(guān),與語(yǔ)音識別/合成引擎無(wú)關(guān)等。

  如上所述,語(yǔ)音技術(shù)標準(除了語(yǔ)音編碼)的制訂工作主要集中在三個(gè)不同的層面上。這三個(gè)層面標準的內容分別是:

  語(yǔ)音技術(shù)應用: 一般基于語(yǔ)音的應用都有如下圖所示的架構(已簡(jiǎn)化)。

  在這個(gè)層面上,語(yǔ)音技術(shù)標準的主要內容是: 規定語(yǔ)音輸入、語(yǔ)音輸出、識別結果、返回結果的格式和屬性。語(yǔ)音輸入和語(yǔ)音輸出屬于用戶(hù)與語(yǔ)音信號處理引擎之間的交互過(guò)程,所以,這部分也包括語(yǔ)音用戶(hù)界面的內容; 識別結果是語(yǔ)音信號處理引擎輸出的結果,也是識別結果執行引擎的輸入,識別的結果一般是文本或命令,如何將識別結果格式化是該層面的主要任務(wù); 返回結果是識別結果執行引擎的輸出,也是語(yǔ)音信號處理引擎的輸入,經(jīng)語(yǔ)音信號處理引擎處理后,以語(yǔ)音的方式返回給用戶(hù)。為此,需要規定語(yǔ)音輸出的參數格式,如韻律特征、重音特征和停頓等。制訂這方面的標準內容還應該考慮漢語(yǔ)語(yǔ)言和語(yǔ)音結構的特殊性。現在已經(jīng)發(fā)布的技術(shù)標準或規范主要是VoiceXML和SALT,它們都屬于描述和規定語(yǔ)音技術(shù)應用的層面,都是基于標記語(yǔ)言的格式。

  語(yǔ)音識別/合成系統性能評測標準: 在這個(gè)層面上,語(yǔ)音技術(shù)標準的主要內容是: 評價(jià)語(yǔ)音識別引擎的性能指標,主要包括: 詞匯量大小、識別方式、詞錯誤率WER、語(yǔ)言模型復雜度、響應時(shí)間、訓練和測試語(yǔ)料等; 評價(jià)語(yǔ)音合成引擎的性能指標,主要包括: 詞匯量、自然度、清晰度、測試語(yǔ)料等。雖然我們可以借鑒NIST在這方面的經(jīng)驗和標準,但是針對漢語(yǔ)語(yǔ)音識別/合成系統性能評測標準,我們不能照搬,必須考慮漢語(yǔ)的特點(diǎn)。

  語(yǔ)音識別/合成引擎及其開(kāi)發(fā)接口: 在這個(gè)層面上,語(yǔ)音技術(shù)標準的主要內容是: 規定語(yǔ)音識別引擎的輸入/輸出的格式,如輸入語(yǔ)音的方式(已有的語(yǔ)音數據的輸入/Mic語(yǔ)音輸入)、語(yǔ)音數據的格式、語(yǔ)音特征向量的格式、控制參數的語(yǔ)義格式、輸出是文本串的格式、拼音串的格式、音素串的格式等,提供給用戶(hù)開(kāi)發(fā)接口的函數名、入口/出口參數、功能描述等; 但是,語(yǔ)音識別引擎的實(shí)現細節不應該包含在此部分的標準內,如引擎應該包含哪些模塊,使用什么樣的語(yǔ)音特征向量,如何計算語(yǔ)音特征向量,如何建立模板,如何匹配計算等,都不應該加以約束,而允許開(kāi)發(fā)者采用適當的算法實(shí)現。關(guān)于規定語(yǔ)音合成引擎,需要規定的是: 輸入的格式,如純文本/拼音、帶有控制串的文本/拼音、控制串的語(yǔ)義格式描述、輸出的格式、提供給用戶(hù)開(kāi)發(fā)接口的函數名、入口/出口參數、功能描述等; 但是,語(yǔ)音合成引擎的實(shí)現細節不應該包含在此部分的標準內,如引擎應該包含哪些模塊,如何進(jìn)行輸入文本的分析,如何分詞,采用什么樣的合成基元和算法等,都不應該加以約束。關(guān)于這部分標準的內容,IBM和Microsoft語(yǔ)音識別/合成引擎開(kāi)發(fā)文檔提供了詳細的開(kāi)發(fā)接口函數的信息,而且功能基本相同,可以為制訂語(yǔ)音識別/合成引擎開(kāi)發(fā)接口提供參考。語(yǔ)音識別引擎開(kāi)發(fā)工具包HTK詳細描述了如何開(kāi)發(fā)一個(gè)新的語(yǔ)音識別引擎,對制訂該部分標準的內容也具有參考意義。

  鏈接:推動(dòng)技術(shù)標準制訂

  語(yǔ)音技術(shù)在網(wǎng)絡(luò )瀏覽器和其他領(lǐng)域的的需求越來(lái)越迫切,制訂語(yǔ)音技術(shù)標準或規范的條件工作已經(jīng)基本就緒,但針對各個(gè)具體語(yǔ)種的工作還很多。萬(wàn)維網(wǎng)聯(lián)盟W3C在制定語(yǔ)音技術(shù)標準或規范方面做了大量工作,從2000年開(kāi)始,先后發(fā)布了一系列用于語(yǔ)音識別、語(yǔ)音合成的標記語(yǔ)言規范; 為了制訂一種通用標準,并被廣泛采用,W3C邀請了國際上的大公司,如Sun、 IBM、Intel、微軟等參加工作組。除了語(yǔ)音識別/合成標記語(yǔ)言,工作組還在開(kāi)發(fā)語(yǔ)義翻譯和呼叫控制擴展標記語(yǔ)言?xún)煞N語(yǔ)音標準。這些標準都是W3C語(yǔ)音接口框架的重要部分,目的是為網(wǎng)絡(luò )建立語(yǔ)音應用軟件。

  據報道,W3C計劃提出針對普通話(huà)的語(yǔ)音技術(shù)標準,并計劃加入日語(yǔ)、韓語(yǔ)等亞洲語(yǔ)種。到目前為止,W3C推出的語(yǔ)音技術(shù)標準中最成功的是VoiceXML 2.0,支持VoiceXML 2.0的Web瀏覽器可以解釋VoiceXML 2.0腳本并向用戶(hù)呈現語(yǔ)音信息,同時(shí)還能接受用戶(hù)的語(yǔ)音請求,其功能相當于語(yǔ)音瀏覽器,大大促進(jìn)了語(yǔ)音技術(shù)在網(wǎng)絡(luò )中的應用。

計算機世界網(wǎng)(www.ccw.com.cn)



相關(guān)鏈接:
你好!新語(yǔ)音識別時(shí)代 2006-06-01
藏在舌尖上的“身份證”:走向民品市場(chǎng)的聲音識別技術(shù) 2006-05-30
語(yǔ)音識別前端系統提高配送中心員工選貨的正確性 2006-03-14
語(yǔ)音技術(shù)“入侵”電話(huà)服務(wù) 顛覆傳統通信 2006-03-10
Aculab的Prosody語(yǔ)音卡支持teliSpeech語(yǔ)音識別技術(shù) 2006-03-06

相關(guān)頻道:           文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 永善县| 来凤县| 遵化市| 玉门市| 长宁区| 房山区| 永宁县| 无棣县| 仁化县| 徐闻县| 奉节县| 城市| 斗六市| 民县| 南宫市| 通道| 定安县| 沛县| 白河县| 绩溪县| 安龙县| 科技| 兴安县| 昌宁县| 策勒县| 嘉善县| 鲁甸县| 宣武区| 扎兰屯市| 海丰县| 黄冈市| 东源县| 宿松县| 锡林郭勒盟| 祥云县| 安仁县| 黄浦区| 府谷县| 德昌县| 马山县| 天镇县| http://444 http://444 http://444 http://444 http://444 http://444