摘要:介紹了一種以ARM為核心的嵌入式語(yǔ)音識別模塊的設計與實(shí)現。模塊的核心處理單元選用ST公司的基于A(yíng)RM Cortex-M3內核的32位處理器STM32F103C8T6。本模塊以對話(huà)管理單元為中心,通過(guò)以L(fǎng)D3320芯片為核心的硬件單元實(shí)現語(yǔ)音識別功能,采用嵌入式操作系統μC/OS-II來(lái)實(shí)現統一的任務(wù)調度和外圍設備管理。經(jīng)過(guò)大量的實(shí)驗數據驗證,本文設計的語(yǔ)音識別模塊具有高實(shí)時(shí)性、高識別率、高穩定性的優(yōu)點(diǎn)。
關(guān)鍵詞:ARM;語(yǔ)音識別;對話(huà)管理;LD3320;μC/OS-II
引言
服務(wù)機器人以服務(wù)為目的,因此人們需要一種更方便、更自然、更加人性化的方式與機器人交互,而不再滿(mǎn)足于復雜的鍵盤(pán)和按鈕操作。基于聽(tīng)覺(jué)的人機交互是該領(lǐng)域的一個(gè)重要發(fā)展方向。目前主流的語(yǔ)音識別技術(shù)是基于統計模式。然而,由于統計模型訓練算法復雜,運算量大,一般由工控機、PC機或筆記本來(lái)完成,這無(wú)疑限制了它的運用。嵌入式語(yǔ)音交互已成為目前研究的熱門(mén)課題。
嵌入式語(yǔ)音識別系統和PC機的語(yǔ)音識別系統相比,雖然其運算速度和內存容量有一定限制,但它具有體積小、功耗低、可靠性高、投入小、安裝靈活等優(yōu)點(diǎn),特別適用于智能家居、機器人及消費電子等領(lǐng)域。
1 模塊整體方案及架構
語(yǔ)音識別的基本原理如圖1所示。語(yǔ)音識別包括兩個(gè)階段:訓練和識別。不管是訓練還是識別,都必須對輸入語(yǔ)音預處理和特征提取。訓練階段所做的具體工作是通過(guò)用戶(hù)輸入若干次訓練語(yǔ)音,經(jīng)過(guò)預處理和特征提取后得到特征矢量參數,最后通過(guò)特征建模達到建立訓練語(yǔ)音的參考模型庫的目的。而識別階段所做的主要工作是將輸入語(yǔ)音的特征矢量參數和參考模型庫中的參考模型進(jìn)行相似性度量比較,然后把相似性最高的輸入特征矢量作為識別結果輸出。這樣,最終就達到了語(yǔ)音識別的目的。
