從技術(shù)角度看,語(yǔ)音識別技術(shù)、文語(yǔ)轉換技術(shù)已經(jīng)從實(shí)驗室逐步走向成熟,其算法的復雜性也逐年下降,從而使這些技術(shù)逐步在市場(chǎng)中得以應用。
語(yǔ)音技術(shù)在計算機領(lǐng)域中的關(guān)鍵技術(shù)是語(yǔ)音識別技術(shù)和語(yǔ)音合成技術(shù)。語(yǔ)音識別技術(shù)(ASR :Automatic Speech Recognition ),是指將人說(shuō)話(huà)的語(yǔ)音信號轉換為可被計算機程序所識別的文字信息,從而識別說(shuō)話(huà)人的語(yǔ)音指令以及文字內容的技術(shù)。目前關(guān)于中文語(yǔ)音識別的研制和開(kāi)發(fā)的廠(chǎng)商有:Speechworks、Nuance、Philips、Microsoft、IBM、L&H(已解體)、Infotalk、中科模式識別、天朗、得意音通、安可爾通信、聲碩科技等。而語(yǔ)音合成技術(shù)(TTS :Text to Speech ),是指將文本信息轉變?yōu)檎Z(yǔ)音數據,以語(yǔ)音的方式播放出來(lái)的技術(shù)。目前關(guān)于中文語(yǔ)音合成的研制和開(kāi)發(fā)的廠(chǎng)商有:捷通華聲、炎黃新星、Infotalk、科大訊飛、IBM、Microsoft等。
類(lèi)似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),語(yǔ)音瀏覽技術(shù)是以一種XML 標記語(yǔ)言為數據載體,通過(guò)各種網(wǎng)絡(luò )數據傳輸協(xié)議,而以Client/Server 的方式為語(yǔ)音瀏覽器所解析,通過(guò)語(yǔ)音的方式呈現給用戶(hù)。這類(lèi)似于Web與IE瀏覽器的概念,只不過(guò)IE以圖像的方式在顯示器上將信息呈現出來(lái),而語(yǔ)音瀏覽器則以語(yǔ)音的方式在電話(huà)、手機或其它語(yǔ)音手持設備的通道中呈現。IE 接受用戶(hù)的鼠標和鍵盤(pán)指令,而語(yǔ)音瀏覽器接受用戶(hù)的說(shuō)話(huà)為指令。目前,已經(jīng)有廠(chǎng)商開(kāi)始將語(yǔ)音瀏覽技術(shù)應用于呼叫中心,在當今以廠(chǎng)商為中心的模式中,主叫用戶(hù)只能以?huà)鞌嚯娫?huà)的方式來(lái)"擺脫"某一企業(yè)的按鍵式交互語(yǔ)音應答(IVR)系統,而在未來(lái)以用戶(hù)為中心的模式中,主叫用戶(hù)可與語(yǔ)音瀏覽展開(kāi)交互式對話(huà),可以像網(wǎng)上沖浪般快捷、方便地從一家企業(yè)自由地 跳到另外一家企業(yè)。
語(yǔ)音應用技術(shù)是語(yǔ)音技術(shù)、語(yǔ)音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,它是跨接在以語(yǔ)音為核心的電話(huà)網(wǎng)絡(luò )和以數據為核心的互聯(lián)網(wǎng)絡(luò )兩者之間的一座橋梁,使人們可以自由地以對話(huà)方式與機器和遠端語(yǔ)音服務(wù)器交談,以語(yǔ)音的方式命令機器為自己服務(wù)。
賽迪網(wǎng) 中國信息化(industry.ccidnet.com)