首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)　　語音識別產(chǎn)品

語音識別標準之痛

章森王偉華紹和 2006/06/19

　　語音技術(shù)涉及到語音編碼、語音合成、語音識別、語音技術(shù)應(yīng)用等多個技術(shù)領(lǐng)域。本文討論的不是語音編碼的標準問題，而是對語音合成與識別領(lǐng)域的技術(shù)標準做一個研究與探討。

　　語音技術(shù)涉及到語音編碼、語音合成、語音識別、語音技術(shù)應(yīng)用等多個技術(shù)領(lǐng)域。目前，關(guān)于語音編碼，國際標準化組織ISO和國際電信聯(lián)盟ITU上已經(jīng)制訂了一系列的技術(shù)標準，分別應(yīng)用在有線通信、移動通信、數(shù)字音響等領(lǐng)域。但是，關(guān)于語音合成與識別技術(shù)的標準還沒有一個統(tǒng)一的規(guī)范，ISO和ITU在這些領(lǐng)域也沒有頒布技術(shù)標準和規(guī)范。雖然有些標準化組織、研究機構(gòu)和大公司提出了各自的技術(shù)規(guī)范草案，但是沒有得到廣泛的承認和支持。國際上，許多跨國公司，如IBM、Microsoft、AT&T、Naunce、Sun System等對語音技術(shù)的研究已經(jīng)持續(xù)了多年，對制定語音技術(shù)領(lǐng)域的標準非常關(guān)心并積極參與，希望能把各自公司的研究成果納入到技術(shù)規(guī)范和標準中去，以期在激烈的競爭中處于技術(shù)的制高點�，F(xiàn)在，與互聯(lián)網(wǎng)有關(guān)的語音技術(shù)應(yīng)用領(lǐng)域，相關(guān)的國際語音標準發(fā)展迅速，形成了VoiceXML和SALT兩大語音標準陣營，并各自都獲得了廣泛的支持。但是，對語音合成與識別的核心技術(shù)，如系統(tǒng)框架、接口規(guī)范等還沒有統(tǒng)一的標準。本文不討論語音編碼的標準問題，而是對語音合成與識別領(lǐng)域的技術(shù)標準做一個初步的探討。

　　語音技術(shù)標準的三個層面

　　雖然目前國際上還沒有統(tǒng)一的、得到廣泛承認和支持的語音合成與識別領(lǐng)域的技術(shù)標準，但是，這方面的研究工作發(fā)展迅速，近幾年推出了許多研究成果，特別是W3C組織積極推動并發(fā)布了多個語音技術(shù)應(yīng)用方面的規(guī)范或標準。例如， W3C發(fā)布了Voice Browser(語音瀏覽器)標準的草案。在這個標準中，Voice Browser標準(草案)定義了幾種支持語音輸入和輸出的鏈接語言。這些鏈接語言使語音設(shè)備可以跨越各種硬件和軟件平臺,特別是設(shè)計了關(guān)于對話、語音識別語法、語音合成、自然語言語義和搜集可重復(fù)使用的對話組件的鏈接語言。這些鏈接語言和組件就構(gòu)成了未來語音界面框架。現(xiàn)在，這個標準組中的參加成員有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于語音識別與合成技術(shù)還處在迅速發(fā)展階段，制訂出一套合適的技術(shù)標準很不容易。關(guān)于語音技術(shù)(除了語音編碼)有關(guān)標準的制定工作主要集中在三個層面。

　　語音技術(shù)應(yīng)用: 在這個層面上，主要規(guī)定在應(yīng)用開發(fā)中如何使用語音合成與識別技術(shù)，即應(yīng)用程序與語音合成/識別引擎之間的通信協(xié)議/語言，許多跨國公司積極參加了這個層面的規(guī)范與標準的起草、制訂工作，例如，如IBM、AT&T、Naunce、Microsoft、Sun System等，推動并且形成了VoiceXML和SALT兩大語音標準陣營。從開發(fā)者的角度看，這些標準都是面向應(yīng)用系統(tǒng)開發(fā)用的。萬維網(wǎng)聯(lián)盟W3C主持了VoiceXML的起草和制定工作，并從2000年開始陸續(xù)發(fā)布了VoiceXML的多個版本，其中包括了語音識別語法規(guī)范和語音合成標記語言等。這些標準不僅使應(yīng)用程序可以移植，而且還能夠使語法相關(guān)聯(lián)。VoiceXML 2.0是一種標記語言，用于建立話音界面，相當于帶語音功能的HTML�，F(xiàn)在已經(jīng)有數(shù)百個大的廠商開發(fā)了基于VoiceXML的應(yīng)用程序。SALT表示語音應(yīng)用標記語言，它是在現(xiàn)有的標記語言，如在HTML、XHTML的基礎(chǔ)上，增加了對語音和多媒體功能的支持而形成的。對語音應(yīng)用，它主要關(guān)注的是如何通過電話得到語音服務(wù)。2002年，SALT聯(lián)盟論壇發(fā)布了SALT技術(shù)規(guī)范的草案，并且把它提交給了W3C，希望能成為技術(shù)標準。參加和支持SALT技術(shù)規(guī)范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。

　　語音識別/合成系統(tǒng)性能評測標準: 美國國家技術(shù)與標準研究所(NIST)主持了這個方面的工作。從20世紀90年代中期開始，NIST就開始組織語音識別/合成系統(tǒng)的性能評測工作。由于語音識別/合成系統(tǒng)的實現(xiàn)技術(shù)各種各樣，對它們的評測實際上是相當困難的。20世紀90年代初期的時候，語音識別/合成系統(tǒng)大量推出，但往往出現(xiàn)下面的情況: 某個系統(tǒng)在推出時，聲稱該系統(tǒng)有很高的性能，但實際應(yīng)用的時候其性能與宣傳的差別很大。因此，NIST認為應(yīng)制定出一套評價語音識別/合成系統(tǒng)的技術(shù)標準，讓所有的語音識別/合成系統(tǒng)在這套評測標準下進行評估，以得到客觀的性能評價指標。在該領(lǐng)域，NIST陸續(xù)制定了評價語音識別/合成系統(tǒng)的詞錯誤率WER的計算規(guī)范，語言模型的復(fù)雜度的計算規(guī)范，訓(xùn)練和測試語料的選取，系統(tǒng)響應(yīng)時間標準，合成語音自然度的評價規(guī)范，測試程序的規(guī)范等。近年來，NIST又制定了針對其它語種(如，漢語，日語等)的評價標準。NIST的評價標準迅速得到了語音識別/合成領(lǐng)域開發(fā)者的支持，越來越多的大公司積極參加NIST組織的評測活動，同時也推動了語音識別/合成技術(shù)的發(fā)展。國內(nèi)的“863”智能人機接口專家組也開展了類似的工作，陸續(xù)制定了針對漢語語音識別與合成系統(tǒng)性能的評價規(guī)范。

　　語音識別/合成引擎及其開發(fā)接口: 在這個層面上還沒有一個技術(shù)標準或規(guī)范被廣泛承認和采納。ISO、ITU、NIST、W3C等標準化組織都沒有在該方面推出技術(shù)標準或規(guī)范。實際上，這方面的工作涉及到許多語音識別/合成系統(tǒng)的具體實現(xiàn)問題，而系統(tǒng)的實現(xiàn)方法千變?nèi)f化，難以用一個統(tǒng)一的規(guī)范和標準來規(guī)范。雖然沒有語音識別/合成引擎及其開發(fā)接口的統(tǒng)一的標準和規(guī)范，但一些開發(fā)廠商和研究機構(gòu)還是制定了各自的規(guī)范，在各自的語音系統(tǒng)中得到了實現(xiàn)，并隨著語音識別/合成系統(tǒng)的推出而發(fā)布。

　　IBM在其推出的語音識別與合成引擎ViaVoice中規(guī)定了開發(fā)接口，提供了幾百個開發(fā)接口函數(shù)。Microsoft推出了基于它的語音識別與合成引擎開發(fā)語音應(yīng)用的接口Speech SDK, 在其中也提供了類似的開發(fā)接口函數(shù)。但是，IBM和Microsoft的語音識別與合成引擎的實現(xiàn)細節(jié)沒有公開，也沒有提供這方面的技術(shù)規(guī)范。另外，美國的CMU大學、英國劍橋大學電子工程系的HTK開發(fā)組都發(fā)布了開放式的語音識別與合成引擎的源碼以及相應(yīng)的開發(fā)工具，它們的語音識別與合成引擎的實現(xiàn)方法紛紛被眾多的開發(fā)者所借鑒，從而形成了業(yè)界很有影響的開發(fā)規(guī)范，但是，這些規(guī)范也不是標準。目前，有許多語音識別與合成引擎，但是沒有提供實現(xiàn)的技術(shù)規(guī)范，因此，這些系統(tǒng)的實現(xiàn)和提供的接口只是遵守各自特殊的規(guī)定，沒有規(guī)范化并得到廣泛的應(yīng)用。

　　中文語音技術(shù)標準現(xiàn)狀

　　制訂中文語音技術(shù)的有關(guān)標準，對促進中文語音技術(shù)應(yīng)用、推動中文語音產(chǎn)業(yè)發(fā)展、增強民族軟件核心競爭力均具有非常重要的意義。國家信息產(chǎn)業(yè)部、“863”專家組、國家技術(shù)監(jiān)督局和國家信息標準化委員會分別于2001年、2002年、2003年召開了三屆語音標準研討會，并于2003年11月由信息產(chǎn)業(yè)部科技司正式下文成立了“中文語音交互技術(shù)標準工作組”。

　　“中文語音交互技術(shù)標準工作組”是由國內(nèi)產(chǎn)、學、研、用等企事業(yè)單位以及大專院校等自愿聯(lián)合組織、經(jīng)信息產(chǎn)業(yè)部科技司批準成立的、組織開展中文語音交互領(lǐng)域技術(shù)標準制定和研究活動的非營利性技術(shù)工作組織。該工作組的主要工作任務(wù)是研究并制定與中文語音交互技術(shù)有關(guān)的數(shù)據(jù)交換格式、系統(tǒng)架構(gòu)與接口、系統(tǒng)分類與評測及數(shù)據(jù)庫格式與標注等方面的標準。目前，語音合成和語音識別通用標準已正式立項為國家標準，報批稿已經(jīng)完成，多個產(chǎn)業(yè)相關(guān)的應(yīng)用技術(shù)標準也正在制定之中。

　　國家“863”智能人機接口專家組在20世紀90年代中后期邀請國內(nèi)的一些研究機構(gòu)和大學制訂了針對漢語語音識別與合成系統(tǒng)的評價規(guī)范，該評價規(guī)范應(yīng)用到了歷屆對“863”支持的漢語語音識別與合成系統(tǒng)的評價過程中。如果從語音識別與合成技術(shù)標準的三個層面考察，國內(nèi)在該領(lǐng)域的研究工作主要集中在系統(tǒng)性能的評價規(guī)范的制訂上，至今還沒有正式實施的國家標準。但是，隨著國內(nèi)的語音應(yīng)用開發(fā)地迅速發(fā)展，沒有一個統(tǒng)一的技術(shù)規(guī)范或標準會造成許多開發(fā)重復(fù)，資源浪費。

　　例如，如果語音識別與合成引擎支持媒體資源控制協(xié)議(MRCP)，語音應(yīng)用開發(fā)者采用MRCP，IVR和語音識別與合成引擎開發(fā)廠商之間的專有用的連接器就不需要了。再如，隨著語音技術(shù)和應(yīng)用市場需求增大的同時，面臨著復(fù)雜系統(tǒng)互聯(lián)的問題。在系統(tǒng)的互聯(lián)接口、內(nèi)容交換數(shù)據(jù)格式等方面沒有一個大家共同遵循的標準，其開發(fā)難度、維護難度和運營難度是非常巨大的; 沒有一個大家共同遵循的標準，語音合成/識別引擎與電話設(shè)備、后臺數(shù)據(jù)庫、地理信息、無線定位等其他組成部分完成通信也是非常困難的，這些都成了阻礙語音應(yīng)用大規(guī)模發(fā)展的絆腳石。因此，制訂和研究漢語語音技術(shù)領(lǐng)域的標準已迫在眉睫。

　　技術(shù)標準的主要內(nèi)容

　　為了適應(yīng)網(wǎng)上語音瀏覽、語音信息檢索、交互式語音應(yīng)用的發(fā)展需求，語音識別與合成技術(shù)的標準制訂工作的重點目前應(yīng)該集中語音技術(shù)應(yīng)用層面和語音識別/合成引擎及其開發(fā)接口上。這樣的一個標準或規(guī)范必須是有代表性的，通用的，被廣泛接受和采用的; 顯然，制定一個這樣的標準不能閉門造車，要有標準的使用機構(gòu)或潛在的使用機構(gòu)參與，還必須與國際上已有的類似的標準接軌，與國際上的標準化機構(gòu)，如ISO、W3C、ITU等密切合作。值得注意的是，語音識別/合成的實現(xiàn)算法千差萬別，該領(lǐng)域的標準或規(guī)范只能提供一個實現(xiàn)框架，沒有必要對具體的實現(xiàn)算法和技術(shù)細節(jié)進行約束。另外，語音技術(shù)標準還應(yīng)該與具體應(yīng)用無關(guān)，與語音識別/合成引擎無關(guān)等。

　　如上所述，語音技術(shù)標準(除了語音編碼)的制訂工作主要集中在三個不同的層面上。這三個層面標準的內(nèi)容分別是:

　　語音技術(shù)應(yīng)用: 一般基于語音的應(yīng)用都有如下圖所示的架構(gòu)(已簡化)。

　　在這個層面上，語音技術(shù)標準的主要內(nèi)容是: 規(guī)定語音輸入、語音輸出、識別結(jié)果、返回結(jié)果的格式和屬性。語音輸入和語音輸出屬于用戶與語音信號處理引擎之間的交互過程，所以，這部分也包括語音用戶界面的內(nèi)容; 識別結(jié)果是語音信號處理引擎輸出的結(jié)果，也是識別結(jié)果執(zhí)行引擎的輸入，識別的結(jié)果一般是文本或命令，如何將識別結(jié)果格式化是該層面的主要任務(wù); 返回結(jié)果是識別結(jié)果執(zhí)行引擎的輸出，也是語音信號處理引擎的輸入，經(jīng)語音信號處理引擎處理后，以語音的方式返回給用戶。為此，需要規(guī)定語音輸出的參數(shù)格式，如韻律特征、重音特征和停頓等。制訂這方面的標準內(nèi)容還應(yīng)該考慮漢語語言和語音結(jié)構(gòu)的特殊性�，F(xiàn)在已經(jīng)發(fā)布的技術(shù)標準或規(guī)范主要是VoiceXML和SALT，它們都屬于描述和規(guī)定語音技術(shù)應(yīng)用的層面，都是基于標記語言的格式。

　　語音識別/合成系統(tǒng)性能評測標準: 在這個層面上，語音技術(shù)標準的主要內(nèi)容是: 評價語音識別引擎的性能指標，主要包括: 詞匯量大小、識別方式、詞錯誤率WER、語言模型復(fù)雜度、響應(yīng)時間、訓(xùn)練和測試語料等; 評價語音合成引擎的性能指標，主要包括: 詞匯量、自然度、清晰度、測試語料等。雖然我們可以借鑒NIST在這方面的經(jīng)驗和標準，但是針對漢語語音識別/合成系統(tǒng)性能評測標準，我們不能照搬，必須考慮漢語的特點。

　　語音識別/合成引擎及其開發(fā)接口: 在這個層面上，語音技術(shù)標準的主要內(nèi)容是: 規(guī)定語音識別引擎的輸入/輸出的格式，如輸入語音的方式(已有的語音數(shù)據(jù)的輸入/Mic語音輸入)、語音數(shù)據(jù)的格式、語音特征向量的格式、控制參數(shù)的語義格式、輸出是文本串的格式、拼音串的格式、音素串的格式等，提供給用戶開發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是，語音識別引擎的實現(xiàn)細節(jié)不應(yīng)該包含在此部分的標準內(nèi)，如引擎應(yīng)該包含哪些模塊，使用什么樣的語音特征向量，如何計算語音特征向量，如何建立模板，如何匹配計算等，都不應(yīng)該加以約束，而允許開發(fā)者采用適當?shù)乃惴▽崿F(xiàn)。關(guān)于規(guī)定語音合成引擎，需要規(guī)定的是: 輸入的格式，如純文本/拼音、帶有控制串的文本/拼音、控制串的語義格式描述、輸出的格式、提供給用戶開發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是，語音合成引擎的實現(xiàn)細節(jié)不應(yīng)該包含在此部分的標準內(nèi)，如引擎應(yīng)該包含哪些模塊，如何進行輸入文本的分析，如何分詞，采用什么樣的合成基元和算法等，都不應(yīng)該加以約束。關(guān)于這部分標準的內(nèi)容，IBM和Microsoft語音識別/合成引擎開發(fā)文檔提供了詳細的開發(fā)接口函數(shù)的信息，而且功能基本相同，可以為制訂語音識別/合成引擎開發(fā)接口提供參考。語音識別引擎開發(fā)工具包HTK詳細描述了如何開發(fā)一個新的語音識別引擎，對制訂該部分標準的內(nèi)容也具有參考意義。

　　鏈接:推動技術(shù)標準制訂

　　語音技術(shù)在網(wǎng)絡(luò)瀏覽器和其他領(lǐng)域的的需求越來越迫切，制訂語音技術(shù)標準或規(guī)范的條件工作已經(jīng)基本就緒，但針對各個具體語種的工作還很多。萬維網(wǎng)聯(lián)盟W3C在制定語音技術(shù)標準或規(guī)范方面做了大量工作，從2000年開始，先后發(fā)布了一系列用于語音識別、語音合成的標記語言規(guī)范; 為了制訂一種通用標準，并被廣泛采用，W3C邀請了國際上的大公司，如Sun、 IBM、Intel、微軟等參加工作組。除了語音識別/合成標記語言，工作組還在開發(fā)語義翻譯和呼叫控制擴展標記語言兩種語音標準。這些標準都是W3C語音接口框架的重要部分，目的是為網(wǎng)絡(luò)建立語音應(yīng)用軟件。

　　據(jù)報道，W3C計劃提出針對普通話的語音技術(shù)標準，并計劃加入日語、韓語等亞洲語種。到目前為止，W3C推出的語音技術(shù)標準中最成功的是VoiceXML 2.0，支持VoiceXML 2.0的Web瀏覽器可以解釋VoiceXML 2.0腳本并向用戶呈現(xiàn)語音信息，同時還能接受用戶的語音請求，其功能相當于語音瀏覽器，大大促進了語音技術(shù)在網(wǎng)絡(luò)中的應(yīng)用。

計算機世界網(wǎng)(www.ccw.com.cn)

相關(guān)鏈接:

你好！新語音識別時代 2006-06-01

藏在舌尖上的“身份證”:走向民品市場的聲音識別技術(shù) 2006-05-30

語音識別前端系統(tǒng)提高配送中心員工選貨的正確性 2006-03-14

語音技術(shù)“入侵”電話服務(wù) 顛覆傳統(tǒng)通信 2006-03-10

Aculab的Prosody語音卡支持teliSpeech語音識別技術(shù) 2006-03-06

相關(guān)頻道: 文摘技術(shù)_語音識別_文摘