華鎮電子嵌入式語(yǔ)音識別系統Wanson ASR Chip1.0
2008/02/27
1、Wanson ASR Chip1.0 概述
Wanson ASR Chip1.0 是專(zhuān)門(mén)為微小芯片上而開(kāi)發(fā)的嵌入式語(yǔ)音識別引擎。 隨著(zhù)語(yǔ)音識別系統的識別準確率和識別速度的提高以及在特定環(huán)境下對硬件條件的要求越來(lái)越低,將基于微小芯片的語(yǔ)音識別技術(shù)嵌入消費類(lèi)電子產(chǎn)品中越來(lái)越成為現實(shí)。隨著(zhù)消費類(lèi)電子產(chǎn)品性能變得越來(lái)越混雜功能越來(lái)越強勁,語(yǔ)音識
別科技就可以使消費者可以更方便、更直觀(guān)地使用這些產(chǎn)品。并且,在使用這些 產(chǎn)品的時(shí)候不會(huì )伴隨著(zhù)一系列的按鍵和提示音,而是實(shí)現消費者和產(chǎn)品間的直接對話(huà)。嵌入式語(yǔ)音識別在消費類(lèi)電子產(chǎn)品市場(chǎng)應用上大約分成三類(lèi):手提設備,游戲/
玩具以及汽車(chē)。手提設備中,智能電話(huà)Smartphone的發(fā)展驅動(dòng)著(zhù)這類(lèi)市場(chǎng)的蓬 勃興起。在Smartphone中,語(yǔ)音撥號已經(jīng)成為一個(gè)普遍功能,幾乎每一家手機
芯片供應商都想要提供內嵌語(yǔ)音撥號功能的手機。但是直到最近,這些嵌入式語(yǔ) 音識別都只能限于話(huà)者相關(guān),小詞匯量的。
我們已經(jīng)開(kāi)發(fā)出能安裝在智能手機Smartphone上的連續語(yǔ)音及短語(yǔ)語(yǔ)音識別軟 件,可以為用戶(hù)提供語(yǔ)音撥號和聲音命令控制等功能。同時(shí),我們正在開(kāi)發(fā)基于
更小封裝、微小芯片上的話(huà)者獨立,可變詞匯量的語(yǔ)音識別軟件。這些軟件可以 作用在智能手機Smartphone,CDMA/2.5G/3.5G
芯片,智能玩具以及汽車(chē)的導航 系統上。我們開(kāi)發(fā)的嵌入式語(yǔ)音識別軟件使用了改進(jìn)的Hidden Markov Model(HMM)聲學(xué)模型,同時(shí)基于移動(dòng)設備上的有限CPU
資源和存儲空間,我們開(kāi)發(fā)出 了快速的語(yǔ)音參數提取方法和高效識別搜索算法。該語(yǔ)音識別軟件兼顧到識別速 度和識別準確率的平衡,能運用于一系列從語(yǔ)音命令控制,語(yǔ)音人名撥號到語(yǔ)音
翻譯,語(yǔ)言學(xué)習的實(shí)際應用中。 將嵌入式語(yǔ)音識別軟件應用到消費類(lèi)電子產(chǎn)品中并投入市場(chǎng)有兩個(gè)主導因素:花 費成本和投入市場(chǎng)的時(shí)間。我們所開(kāi)發(fā)的語(yǔ)音識別軟件(基于Smartphone
的以 及基于微小芯片上的)提供了優(yōu)異的性能,跟多家芯片和手機制造商接口的標準 界面以及一系列開(kāi)發(fā)工具兼容,使得我們的OEM
伙伴能快速地推出他們的新產(chǎn)品。
2.Wanson ASR Chip1.0 系統描述
2.1 系統框圖及概述
Wanson ASR Chip1.0 是一套功能強大,具有全部開(kāi)發(fā)工具的語(yǔ)音識別系統,使 開(kāi)發(fā)者可以方便而快速地開(kāi)發(fā)出一系列不同的應用。Wanson
ASR Chip1.0 提供 的特性包括有:
- 該語(yǔ)音識別軟件附帶了一系圖形化界面的軟件開(kāi)發(fā)包,使廠(chǎng)商可以很快在現有 的產(chǎn)品上增加語(yǔ)音識別功能;
- 秉承Wanson ASR電信級語(yǔ)音識別軟件的高準確率和穩定性,持續提高客戶(hù)意 度;
- 軟件采用標準C書(shū)寫(xiě)核心算法,使得該軟件能很快地移植到其他操作系統和處 理器上;
- 提供了常規的,功能強大的API 接口,能夠很方便地與設備上的現有軟件集成.
上圖示為Wanson ASR Chip1.0 的系統框圖。如圖所示,由系統所構筑的語(yǔ)音識 別應用程序和四部分相結合。對語(yǔ)音識別而言,將接收到的語(yǔ)音文件包通過(guò)錄音
接口傳給語(yǔ)音識別引擎。該引擎在執行語(yǔ)音識別任務(wù)時(shí),根據系統指令從資源文 件中調用所需要的語(yǔ)言模型,聲學(xué)模型,字典等資源。當語(yǔ)音識別任務(wù)完成后,
系統將識別出來(lái)的結果放在系統隊列中,供下級設備讀取。
2.2 應用程序開(kāi)發(fā)
開(kāi)發(fā)具有嵌入式語(yǔ)音識別功能的應用程序大約需要以下的步驟:
- 性能的定義 開(kāi)發(fā)商在開(kāi)發(fā)應用程序時(shí),首先要定義的是準備給用戶(hù)提供什么樣的特性和功能。例如,喚醒功能(該引擎可以使產(chǎn)品工作在待機狀態(tài),等待清晰的喚醒命令,
啟動(dòng)語(yǔ)音識別軟件工作)等等;
- 現有硬件環(huán)境分析 定義完性能之后,需要結合現有設備的硬件條件分析能否支持上述性能的實(shí)現。如果必須的話(huà),是否需要另加RAM
和ROM,或者提高CPU的速度;
- 用戶(hù)界面的設計 因為是基于消費類(lèi)電子產(chǎn)品開(kāi)發(fā)的應用程序,用戶(hù)界面是否友好事關(guān)重大。Wanson ASR Chip1.0
提供了一系列的開(kāi)發(fā)包模擬運行環(huán)境,可以不斷調試,知 道滿(mǎn)意為止;
- 開(kāi)發(fā) 以上所有步驟完成之后,可以進(jìn)行代碼編寫(xiě)和集成的工作。
3.硬件環(huán)境
Wanson ASR Chip1.0 是模塊式的系統體系,單處理器處理所有模塊程序的運行。 下圖示出系統在運行時(shí)主要硬件元素的工作流程。
前端模塊
前端模塊主要包括語(yǔ)音信號處理和參數提取,將原始的語(yǔ)音文件轉換成語(yǔ)音識別需要的語(yǔ)音參數序列。在某些特定的情況下,前端模塊還需要進(jìn)行噪聲處理和聲
道歸一化處理以提高系統的魯棒性(Robust ability)。前端語(yǔ)音信號處理和參數 提取需要大量的數值計算,CPU
的運算能力以及RAM 的速度會(huì )對響應速度有很大影響。
后端模塊
后端模塊是語(yǔ)音識別的核心部分,完成從語(yǔ)音到文本的轉換。該部分包括:語(yǔ)法生成、調入聲學(xué)和語(yǔ)言模型以及發(fā)音字典、路徑搜索等。該部分需要大量的概率和數值計算,并且需要多次訪(fǎng)問(wèn)和調用聲學(xué)模型和發(fā)音字典等資源文件。一般情
況下,聲學(xué)模型和字典等資源將預先調入ROM 和閃存(Flash Memory)。 影響語(yǔ)音識別響應速度的因素主要有:CPU
性能,Memory 的存取速度以及CPU 是否過(guò)載等等。對于CPU 的運算能力,一般而言,在不同的系統配置下,需要 做到實(shí)時(shí)識別并且不影響其他任務(wù)執行所需要的最低配置為6MIPS
(取決于識 別詞匯量大小和硬件配置等)。
語(yǔ)音合成
語(yǔ)音合成部分完成從文本到音的轉換,主要是將語(yǔ)音識別輸出的文本轉換成語(yǔ)音播報給用戶(hù)。在某些特定的情況下,例如在開(kāi)車(chē)的時(shí)候,用戶(hù)可以方便的聽(tīng)到識別結果而不需要去看。
RAM和ROM需求
對于嵌入式的語(yǔ)音識別系統,RAM 和ROM 的大小需求是由應用系統的功能設 計所決定的。同時(shí),不同的RAM 和ROM
大小又影響著(zhù)識別的準確率和響應速 度。一般情況下,較大的RAM 和ROM 存儲空間和快速的RAM和ROM 速度更 有利于識別速度和識別準確率的提高。更多的情況下,在實(shí)際應用中,考慮到性
能價(jià)格比,一般會(huì )選擇適當的RAM 和ROM 尺寸以達到速度和識別率的平衡。 如下表所示:
表中所列的RAM和ROM的空間需求是一個(gè)近似數字
4.功能及特性
Wanson ASR Chip1.0 嵌入式語(yǔ)音識別系統提供了一系列獨到的功能和特性,以 適應不同的開(kāi)發(fā)廠(chǎng)商的需求。
話(huà)者獨立 該軟件無(wú)需事先對用戶(hù)的語(yǔ)音訓練,任何人拿起來(lái)均可使用;
獨特的口音的處理技術(shù) 用戶(hù)不用說(shuō)播音員般標準的普通話(huà),全國各地帶有口音的用戶(hù)亦可以毫無(wú)問(wèn)題得順暢使用該系統;
高識別率 在一定的硬件環(huán)境下,一次性載入詞匯量達到1000 中文詞條時(shí),平均準確率達 到95%以上,并且實(shí)時(shí)識別;
可移植的代碼 軟件采用標準C 書(shū)寫(xiě)核心算法,使得該軟件能很快地移植到其他操作系統和處理器上;
小封裝,低系統配置 如前所述,Wanson ASR Chip1.0 對系統硬件資源要求很少,因此可以適用于一
系列消費類(lèi)電子產(chǎn)品上,例如:
- PDA,Smart phone
- CDMA,GSM,GPS 手機
- MP3 播放器
- 玩具
- 車(chē)載GPS 系統
- 其他手提設備
在線(xiàn)更改語(yǔ)音資源 用戶(hù)在每次增加/刪減/更改詞匯集合后,無(wú)需關(guān)閉和重新啟動(dòng)應用程序,系統可以即時(shí)在線(xiàn)更新系統資源,使用戶(hù)可以馬上使用;
環(huán)境噪音 該系統帶有噪音消除技術(shù),對于應用環(huán)境噪音一定范圍之內,仍可保證高識別率;
動(dòng)態(tài)詞匯庫 適用在不同的硬件條件下,詞匯集合可以從零到1000 詞條,采用系統軟件開(kāi)發(fā) 包,可以方便創(chuàng )建新的詞匯以適用于不同的應用(例如:命令控制集,地址簿,
人名等等)。
CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
泾川县|
栾城县|
尖扎县|
义马市|
大竹县|
武鸣县|
丰宁|
义马市|
环江|
萨嘎县|
上饶县|
太保市|
阳谷县|
四会市|
神木县|
七台河市|
凯里市|
普洱|
闽侯县|
正阳县|
潮安县|
遂溪县|
石屏县|
师宗县|
八宿县|
洪江市|
隆回县|
梁山县|
磐石市|
汾西县|
桐梓县|
郓城县|
贵州省|
朝阳县|
修文县|
泾阳县|
勃利县|
措勤县|
呼图壁县|
茌平县|
闽侯县|
http://444
http://444
http://444
http://444
http://444
http://444