首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)　　語音識別產(chǎn)品

基于Windows CE的語音口令識別系統(tǒng)的設(shè)計(jì)分析

2011/01/06

　　導(dǎo)讀: 論文給出一種基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)的設(shè)計(jì)方案，該系統(tǒng)的硬件電路由嵌入式微處理器和音頻處理等主要芯片組成，采用Windows CE操作系統(tǒng)，語音口令識別算法為連續(xù)隱馬爾可夫模型。語音口令識別技術(shù)可以通過嵌入式系統(tǒng)來實(shí)現(xiàn)，并且應(yīng)用到許多需要使用口令控制的便攜式設(shè)備中。

　　隨著微電子技術(shù)的迅速發(fā)展，嵌入式系統(tǒng)在一些特定的專用設(shè)備上得到了廣泛應(yīng)用，通常這些設(shè)備的硬件資源（如處理器的運(yùn)行速度、存儲(chǔ)器的容量等）非常有限，并且對成本也有苛刻的要求，有時(shí)對實(shí)時(shí)響應(yīng)要求也比較高，在數(shù)字信號處理芯片上已經(jīng)實(shí)現(xiàn)了語音口令識別系統(tǒng)或語音口令識別系統(tǒng)的部分功能。語音口令識別技術(shù)與嵌入式系統(tǒng)的有效結(jié)合能夠顯示出其優(yōu)勢作用，但是也有很多有待進(jìn)一步提高和改進(jìn)之處，語音識別技術(shù)對運(yùn)算速度和內(nèi)存容量的要求都比較高，需要采用一些快速算法提高實(shí)時(shí)處理的性能。嵌入式微處理器的價(jià)格在不斷下降，但是其性能卻在不斷上升，嵌入式系統(tǒng)目前已經(jīng)廣泛地應(yīng)用于運(yùn)算量比較大的系統(tǒng)和設(shè)備中，而其體積小和低功耗的特點(diǎn)使其能夠發(fā)揮出更大的優(yōu)勢。

　　論文給出一種基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)的設(shè)計(jì)方案，硬件系統(tǒng)的核心芯片是嵌入式微處理器，語音口令識別算法采用連續(xù)隱馬爾可夫模型，現(xiàn)有的非特定人語音口令識別系統(tǒng)中，多采用狀態(tài)輸出具有連續(xù)概率分布的連續(xù)隱馬爾可夫模型CDHMM（Continuous DensityHidden Markov Model）［3］。操作系統(tǒng)則是采用的目前廣泛使用的Windows CE 5.0。

　　硬件電路的核心芯片是三星公司的嵌入式微處理器S3C2440AL，主頻為400MHz。該微處理器具有低功耗、高性能等特點(diǎn)，廣泛應(yīng)用于便攜式設(shè)備中�；谇度胧较到y(tǒng)的語音口令識別系統(tǒng)需要有接收語音信號的輸入芯片配合麥克風(fēng)實(shí)現(xiàn)將模擬語音信號轉(zhuǎn)換成數(shù)字信號的功能，然后由嵌入式微處理器對輸入的語音口令信號進(jìn)行處理。完成語音口令信號輸入功能的芯片采用的是PHILIPS公司的低功耗芯片UDA1341TS。操作系統(tǒng)采用的是Windows CE5.0。Windows CE 5.0是一個(gè)32位操作系統(tǒng)，具有模塊化、結(jié)構(gòu)化，能夠支持超過1000個(gè)公共Microsoft Win32應(yīng)用程序接口，并且與處理器無關(guān)等特點(diǎn)，為各種嵌入式系統(tǒng)和產(chǎn)品設(shè)計(jì)提供了一種可裁剪的、高效的、可升級的操作系統(tǒng)。

1.系統(tǒng)設(shè)計(jì)

　　1.1 硬件電路的設(shè)計(jì)

　　論文給出的語音口令識別系統(tǒng)的硬件電路主要由嵌入式微處理器、存儲(chǔ)器和語音口令輸入芯片組成。核心芯片是嵌入式微處理器Samsung 32位S3C2440AL，其主頻為400MHz，最高頻率533MHz。64MB SDRAM，64MB的NAND FLASH存儲(chǔ)器，用來存儲(chǔ)操作系統(tǒng)文件等，2MB的NOR FLASH存儲(chǔ)，為安裝BIOS使用。

　　S3C2440AL控制PHILIPS公司的UDA 1341TS完成輸入語音口令信號的功能。該音頻處理芯片由AD/DA轉(zhuǎn)換、控制邏輯電路、可編程增益放大器（PGA）和數(shù)字自動(dòng)增益控制器（AGC）以及數(shù)字信號處理器等部分組成，能進(jìn)行數(shù)字語音處理。

　　對于一個(gè)基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)，主要有以下幾個(gè)要求：

　�。�1）完成語音口令識別功能時(shí)，需要系統(tǒng)對人所發(fā)出的語音口令做出快速的響應(yīng)，然后給出相應(yīng)的判斷結(jié)果。

　　（2）自動(dòng)獲得語音信號。語音口令識別系統(tǒng)一直處于隨時(shí)接受語音口令的工作狀態(tài)，無需人工操作就能將人的語音命令與環(huán)境噪聲分離出來，舍棄靜音信號和環(huán)境噪聲信號部分，僅僅對有效的語音口令信號做處理和識別。

　�。�3）需要有足夠的存儲(chǔ)器容量存儲(chǔ)操作系統(tǒng)文件和訓(xùn)練好的語音口令模型庫以及存儲(chǔ)大量數(shù)據(jù)的數(shù)據(jù)緩沖區(qū)。

　　論文給出的語音口令識別系統(tǒng)選擇高性價(jià)比的嵌入式微處理器S3C2440AL和64MB隨機(jī)存儲(chǔ)器和64MB的閃存來滿足計(jì)算速度和數(shù)據(jù)緩存的要求。

　　1.2 軟件程序的設(shè)計(jì)

　　選擇Windows CE 5.0為語音口令識別系統(tǒng)的操作系統(tǒng)，Windows CE 5.0是一個(gè)多任務(wù)操作系統(tǒng)。開發(fā)工具主要有Platform. Builder 5.0和EVC++4.0。Platform. Builder5.0用于定制和開發(fā)內(nèi)核，而EVC++4.0則用來編寫基于操作系統(tǒng)的應(yīng)用層程序，也就是算法執(zhí)行程序與圖形化界面，而圖形化的界面使用MFC編寫。

　　由于語音口令識別系統(tǒng)算法的運(yùn)算量比較大，所以為了能夠加快運(yùn)算速度，首先對Windows CE 5.0操作系統(tǒng)進(jìn)行配置，需要將相應(yīng)的板級支持包BSP（Board SupportPackage）導(dǎo)入到Platform. Builder 5.0，裁剪掉一些使用不到的資源，保留一些需要的資源，驅(qū)動(dòng)的配置正確后，將配置好的操作系統(tǒng)內(nèi)核裝入到嵌入式平臺中，然后進(jìn)行應(yīng)用程序的開發(fā)。

　　語音口令識別系統(tǒng)分為訓(xùn)練和識別兩個(gè)過程。訓(xùn)練時(shí)，語音口令信號首先經(jīng)過預(yù)處理，然后提取語音特征參數(shù)，采用MFCC（Mel-Frequency Ceptral Coefficients）參數(shù)［4］，然后建立此口令的連續(xù)隱馬爾可夫（CDHMM）模型，把所有經(jīng)過訓(xùn)練的語音口令的模型放在模型庫中。

　　在識別階段，與訓(xùn)練時(shí)提取語音口令信號的特征參數(shù)一樣，也要提取MFCC特征參數(shù)，然后與保存在語音口令模型庫中的每一條語音口令模型相匹配，根據(jù)概率*分確定輸出識別結(jié)果。語音口令識別系統(tǒng)的程序流程圖如圖1所示。

　　

　　圖:語音口令識別系統(tǒng)的程序流程圖
　　當(dāng)語音口令識別系統(tǒng)采集到命令語音信號后，要提取參數(shù)，做出比較判斷，調(diào)用相應(yīng)語音口令識別算法。對每條語音口令信號，先切除靜音，進(jìn)行預(yù)加重處理，然后通過Hamming窗分幀，幀長和幀移分別為20ms和10ms，對每一幀語音信號提取16階MFCC和△MFCC一共32維參數(shù)作為特征矢量。

　　語音口令識別軟件系統(tǒng)由許多不同的語音信號預(yù)處理、識別算法和其它子程序組成，為了實(shí)現(xiàn)參數(shù)的傳遞，每個(gè)程序執(zhí)行后的參數(shù)以文件的形式輸出，而這些程序的調(diào)用先后順序和參數(shù)的輸入輸出文件的位置等都由一個(gè)主程序管理。

　　在Windows CE中，編寫可執(zhí)行程序，需要調(diào)用應(yīng)用程序編程接口API（Application Programming Interface）函數(shù)，并且要設(shè)定程序入口點(diǎn)。調(diào)用過程為：

　　無論是進(jìn)行語音口令訓(xùn)練還是語音口令識別操作，都需要對語音口令信號的采集和實(shí)時(shí)處理程序，所以對語音口令信號的采集和實(shí)時(shí)處理程序是語音口令識別系統(tǒng)軟件中的重要部分之一。對于語音音頻接口的管理是通過Windows CE 5.0里的API函數(shù)完成的，對語音口令信號的采集和實(shí)時(shí)處理程序流程圖如圖2所示。

　　信號的采集和處理流程圖

　　圖:信號的采集和處理流程圖
　　主程序在配置好初始化參數(shù)后，建立一個(gè)子線程，建立子線程有利于將靜音檢測的復(fù)雜運(yùn)算過程和主程序的音頻數(shù)據(jù)采集過程分開進(jìn)行，以確保在靜音檢測時(shí)不會(huì)丟掉音頻數(shù)據(jù)。與此同時(shí)，主程序開始采集數(shù)據(jù)，并存入到緩沖區(qū)。當(dāng)預(yù)先設(shè)定好的緩沖區(qū)內(nèi)的數(shù)據(jù)采集滿后，會(huì)將所采集的數(shù)據(jù)交給子線程，子線程做靜音檢測判斷。主程序會(huì)依然繼續(xù)重新采集新的音頻數(shù)據(jù)。對于子線程，子線程的任務(wù)是等待主程序發(fā)出命令，然后對數(shù)據(jù)做處理。如果檢測到有語音口令的開始，會(huì)繼續(xù)采集數(shù)據(jù)，得到完整命令語音口令信號，提取相應(yīng)的特征參數(shù)。

　　具體程序中有如下幾個(gè)主要過程：

　　（1）初始化參數(shù)設(shè)置：

　�。╝）FuncReturn=waveInOpen（&（Record_Buffer_Manager.hWaveIn），WAVE_MAPPER，&wFormat，（LONG）（RecordBufferFillProc），（DWORD）this，CALLBACK_FUNCTION）;//首先要調(diào)用API函數(shù)打開音頻設(shè)備接口，并且設(shè)置相應(yīng)的回調(diào)（CALLBACK）函數(shù)（回調(diào)函數(shù)是操作系統(tǒng)在每次緩沖區(qū)存滿后會(huì)自動(dòng)訪問的一個(gè)特殊函數(shù)）

　�。╞）Thread_process=AfxBeginThread（（AFX_THREADPROC）RecordThreadProc，（LPVOID）this，THREAD_PRIORITY_NORMAL，0，0，0）;//要為其單獨(dú)建立一個(gè)線程，為了實(shí)現(xiàn)靜音檢測，在混雜著環(huán)境噪聲的前提下，找出語音口令信號。

　�。╟）FuncReturn=waveInStart（Record_Buffer_Manager.hWaveIn）;//打開音頻數(shù)據(jù)流，開始錄音。（緩沖區(qū)存滿后，系統(tǒng)會(huì)自動(dòng)訪問回調(diào)函數(shù)）

　　（2）主程序與子線程通信

　　SetEvent（pRecord-》hRecordEvent ）;//發(fā)出信號，使得子線程函數(shù)得到命令，對采集到的音頻流進(jìn)行靜音的檢測判斷。

　　（3）在子線程內(nèi)接收消息作出反應(yīng)

　　WaitForSingleObject（pRecord-》hRecordEvent，INFINITE）;ResetEvent（pRecord-》hRecordEvent）;//與回調(diào)函數(shù)的信號發(fā)出程序?qū)?yīng)，接受信號，并重新設(shè)定狀態(tài)，等待下一次信號。

　　……

　　pRecord-》ProcessData（（SAMPLE_TYPE *）pRecord-》pLeftData，……）;//將得到的數(shù)據(jù)段進(jìn)行處理，也就是真正執(zhí)行靜音檢測的部分。

　�。�4）得到完整語音口令信號后提取特征參數(shù)。

2.結(jié)束語

　　論文建立了一種基于Windows CE的語音口令識別系統(tǒng)，并且對上升、下降等14條口令進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明，本語音口令識別系統(tǒng)達(dá)到了實(shí)時(shí)的要求，可以廣泛應(yīng)用于便攜式設(shè)備中。

共 2 頁：1 2

OFweek電子工程網(wǎng)

聲紋識別的原理及其應(yīng)用 2011-01-05

聲紋識別的分類 2011-01-05

聲紋識別的關(guān)鍵問題 2011-01-05

聲紋識別的模式識別方法 2011-01-05

熱點(diǎn)專題: 語音合成TTS 語音識別ASR