基于STM32的嵌入式語(yǔ)音識別模塊設計和實(shí)現
蘇鵬 2011/03/24
摘要:介紹了一種以ARM為核心的嵌入式語(yǔ)音識別模塊的設計與實(shí)現。模塊的核心處理單元選用ST公司的基于A(yíng)RM Cortex-M3內核的32位處理器STM32F103C8T6。本模塊以對話(huà)管理單元為中心,通過(guò)以L(fǎng)D3320芯片為核心的硬件單元實(shí)現語(yǔ)音識別功能,采用嵌入式操作系統μC/OS-II來(lái)實(shí)現統一的任務(wù)調度和外圍設備管理。經(jīng)過(guò)大量的實(shí)驗數據驗證,本文設計的語(yǔ)音識別模塊具有高實(shí)時(shí)性、高識別率、高穩定性的優(yōu)點(diǎn)。
關(guān)鍵詞:ARM;語(yǔ)音識別;對話(huà)管理;LD3320;μC/OS-II
引言
服務(wù)機器人以服務(wù)為目的,因此人們需要一種更方便、更自然、更加人性化的方式與機器人交互,而不再滿(mǎn)足于復雜的鍵盤(pán)和按鈕操作。基于聽(tīng)覺(jué)的人機交互是該領(lǐng)域的一個(gè)重要發(fā)展方向。目前主流的語(yǔ)音識別技術(shù)是基于統計模式。然而,由于統計模型訓練算法復雜,運算量大,一般由工控機、PC機或筆記本來(lái)完成,這無(wú)疑限制了它的運用。嵌入式語(yǔ)音交互已成為目前研究的熱門(mén)課題。
嵌入式語(yǔ)音識別系統和PC機的語(yǔ)音識別系統相比,雖然其運算速度和內存容量有一定限制,但它具有體積小、功耗低、可靠性高、投入小、安裝靈活等優(yōu)點(diǎn),特別適用于智能家居、機器人及消費電子等領(lǐng)域。
1 模塊整體方案及架構
語(yǔ)音識別的基本原理如圖1所示。語(yǔ)音識別包括兩個(gè)階段:訓練和識別。不管是訓練還是識別,都必須對輸入語(yǔ)音預處理和特征提取。訓練階段所做的具體工作是通過(guò)用戶(hù)輸入若干次訓練語(yǔ)音,經(jīng)過(guò)預處理和特征提取后得到特征矢量參數,最后通過(guò)特征建模達到建立訓練語(yǔ)音的參考模型庫的目的。而識別階段所做的主要工作是將輸入語(yǔ)音的特征矢量參數和參考模型庫中的參考模型進(jìn)行相似性度量比較,然后把相似性最高的輸入特征矢量作為識別結果輸出。這樣,最終就達到了語(yǔ)音識別的目的。

現有的語(yǔ)音識別技術(shù)按照識別對象可以分為特定人識別和非特定人識別。特定人識別是指識別對象為專(zhuān)門(mén)的人,非特定人識別是指識別對象是針對大多數用戶(hù),一般需要采集多個(gè)人的語(yǔ)音進(jìn)行錄音和訓練,經(jīng)過(guò)學(xué)習,達到較高的識別率。
基于現有技術(shù)開(kāi)發(fā)嵌入式語(yǔ)音交互系統,目前主要有兩種方式:一種是直接在嵌入式處理器中調用語(yǔ)音開(kāi)發(fā)包;另一種是嵌入式處理器外圍擴展語(yǔ)音芯片。第一種方法程序量大,計算復雜,需要占用大量的處理器資源,開(kāi)發(fā)周期長(cháng);第二種方法相對簡(jiǎn)單,只需要關(guān)注語(yǔ)音芯片的接口部分與微處理器相連,結構簡(jiǎn)單,搭建方便,微處理器的計算負擔大大降低,增強了可靠性,縮短了開(kāi)發(fā)周期。
語(yǔ)音識別技術(shù)在國內外的發(fā)展十分迅速。目前國內在PC應用領(lǐng)域,具有代表性的有:科大訊飛的InterReco2.0、中科模式識別的Pattek ASR3.0、捷通華聲的jASRv5.5;在嵌入式應用領(lǐng)域,具有代表性的有:凌陽(yáng)的SPCE061A、ICRoute的LD332X、上海華鎮電子的WS-117。
本文的語(yǔ)音識別方案是以嵌入式微處理器為核心,外圍加非特定人語(yǔ)音識別芯片及相關(guān)電路構成。語(yǔ)音識別芯片選用ICRoute公司的LD33 20芯片。
2 硬件電路設計
如圖2所示,硬件電路主要包括主控核心部分和語(yǔ)音識別部分。語(yǔ)音進(jìn)入語(yǔ)音識別部分后,將處理過(guò)的數據并行傳輸到主控制器,主控制器經(jīng)過(guò)處理后,發(fā)送命令數據到USART,USART可用于擴展外圍串行設備,如語(yǔ)音合成模塊等。

2.1 主控制器電路
本文的主控制器選用的是ST公司的STM32F103C8T6芯片。該芯片基于A(yíng)RM Cottex-M3 32位的RISC內核,工作頻率最高可達72 MHz,內置高速存儲器(64 KB的閃存和20 KB的SRAM),豐富的增強I/O端口和聯(lián)接到兩條APB總線(xiàn)的外設。STM32系列提供了全新的32位產(chǎn)品選項,結合了高性能、實(shí)時(shí)、低功耗、低電壓等特性,同時(shí)保持了高集成度和易于開(kāi)發(fā)的優(yōu)勢,將32位MCU世界的性能和功效引向一個(gè)新的級別。
2.2 語(yǔ)音識別電路
圖3為語(yǔ)音識別部分原理圖,參照了ICRoute發(fā)布的LD3320數據手冊進(jìn)行設計。LD3320的內部集成了快速穩定的優(yōu)化算法,不需外接Fla-sh、RAM,不需要用戶(hù)事先訓練和錄音而完成非特定人語(yǔ)音識別,識別準確率高。

圖中,LD3320采用并行方式直接與STM32F103C8T6相接,均采用1kΩ電阻上拉,A0用于判斷是數據段還是地址段;控制信號,復位信號以及中斷返回信號INTB與STM32F103C8T6直接相連,采用10kΩ電阻上拉,輔助系統穩定工作;和STM32F103C8T6采用同一個(gè)外部8 MHz時(shí)鐘;發(fā)光二極管D1、D2用于復位后的上電指示;MBS(引腳12)作為麥克風(fēng)偏置,接了一個(gè)RC電路,保證能輸出一個(gè)浮動(dòng)電壓給麥克風(fēng)。
3 軟件系統設計
軟件系統的設計主要包括3部分:主控單元的嵌入式操作系統μC/OS-II移植、LD3320的語(yǔ)音識別程序設計、對話(huà)管理單元的設計。
3.1 嵌入式操作系統μC/OS-II移植
μC/OS-II是一個(gè)源碼公開(kāi)、可移植、可固化、可裁剪、占先式的實(shí)時(shí)多任務(wù)操作系統。它是專(zhuān)門(mén)為計算機的嵌入式應用設計的,絕大部分代碼采用C語(yǔ)言編寫(xiě),具有執行效率高、占用空間小、實(shí)時(shí)性能優(yōu)良和可擴展性強等特點(diǎn),最小內核可至2 KB。在μC/OS-II中,任務(wù)的概念尤為重要,它是可剝奪型的內核,因此任務(wù)優(yōu)先級的劃分至關(guān)緊要。基于分層化和模塊化的設計理念,整個(gè)系統任務(wù)的劃分如表1所列。

表1中除OSTaskStat和OSTaskIdle任務(wù)為系統自帶,其他7個(gè)任務(wù)均為用戶(hù)創(chuàng )建。App_TaskStart是系統的第一個(gè)任務(wù),對系統時(shí)鐘和底層設備進(jìn)行初始化,創(chuàng )建所有事件和其他各項用戶(hù)任務(wù),并對系統狀態(tài)進(jìn)行監測;App_TaskSR完成語(yǔ)音識別;App_TaskCmd完成對話(huà)集中命令的解析和執行,并通過(guò)USART1向外發(fā)送;App_TaskCom作為外圍擴展任務(wù),通過(guò)USART2向外發(fā)送指令或數據,負責控制外圍擴展設備,如語(yǔ)音合成設備等;
App_TaskUpdate通過(guò)解析USART1接收的命令和數據進(jìn)行對話(huà)集的更新;App_TaskPB是按鍵掃描任務(wù),負責檢測3個(gè)獨立按鍵,分為短按和長(cháng)按檢測;App_TaskLed驅動(dòng)4個(gè)LED指示燈,指示當前工作狀態(tài)。
3.2 語(yǔ)音識別程序設計
語(yǔ)音識別程序的設計,參考了LD332X開(kāi)發(fā)手冊,本文中采用中斷方式工作,其工作流程分為通用初始化一語(yǔ)音識別用初始化-寫(xiě)入識別列表-開(kāi)始識別-響應中斷。
①通用初始化和語(yǔ)音識別用初始化。在初始化程序里,主要完成軟復位、模式設定、時(shí)鐘頻率設定、FIFO設定。
②寫(xiě)入識別列表。列表的規則是,每個(gè)識別條目對應一個(gè)特定的編號(1個(gè)字節),編號可以相同,可以不連續,但是數值要小于256(00H~FFH)。本芯片最多支持50個(gè)識別條目,每個(gè)識別條目是標準普通話(huà)的漢語(yǔ)拼音(小寫(xiě)),每2個(gè)字(漢語(yǔ)拼音)之間用一個(gè)空格間隔。本文中采取了連續不同編號的識別條目,表2是簡(jiǎn)單的示例。

③開(kāi)始識別。設置幾個(gè)相關(guān)的寄存器,即可開(kāi)始語(yǔ)音的識別。圖4是相關(guān)的流程。ADC通道即為麥克風(fēng)輸入通道,ADC增益也就是麥克風(fēng)音量,可設定值00H~7FH,建議設置值為40H~6FH,值越大代表MIC音量越大,識別啟動(dòng)越敏感,但可能帶來(lái)更多誤識別;值越小代表MIC音量越小,需要近距離說(shuō)話(huà)才能啟動(dòng)識別功能,好處是對遠處的干擾語(yǔ)音沒(méi)有反應。本文中設定值為43H。

④響應中斷。如果麥克風(fēng)采集到聲音,不管是否識別出正常結果,都會(huì )產(chǎn)生一個(gè)中斷信號。而中斷程序要根據寄存器的值分析結果。讀取BA寄存器的值,可以知道有幾個(gè)候選答案,而C5寄存器里的答案是得分最高、最可能正確的答案。
3.3 對話(huà)管理單元設計
為了方便進(jìn)行對話(huà)的管理,本文中設計了一個(gè)對話(huà)管理單元,用于對等待識別的語(yǔ)句和等待執行的命令進(jìn)行存儲,在主控制器中通過(guò)定義二維數組來(lái)實(shí)現。LD3320每次識別最多可以設置50項候選識別句,每個(gè)識別句可以是單字、詞組或短句,長(cháng)度為不超過(guò)10個(gè)漢字或者79個(gè)字節的拼音串。基于上述原因,本文設計的對話(huà)管理數組如表3所列。

行為數組中存儲要執行的行為編號,對應于50條語(yǔ)音識別語(yǔ)句,共有50組指令,每組指令中可以最多包含6個(gè)行為,并行的行為可以歸為一步,通過(guò)多個(gè)行為的組合,就可以完成更復雜的任務(wù)。
4 性能測試與應用
為了保證設計的語(yǔ)音識別模塊的語(yǔ)音識別率、穩定性和響應時(shí)間,本文對所描述的語(yǔ)音識別模塊做了相應的測試,測試環(huán)境分別為安靜的家庭環(huán)境和嘈雜的醫院環(huán)境,共8條語(yǔ)音指令,對每條語(yǔ)音指令分別進(jìn)行10次測試,每個(gè)環(huán)境下對每個(gè)特定人的總實(shí)驗次數為80次,記錄成功識別的次數。測試結果如表4所列。

測試中的3個(gè)非特定人中,非特定人1為女性,非特定人2和非特定人3為男性。由表中數據可以看出,家庭環(huán)境下對非特定人的語(yǔ)音識別率可達到90%以上,嘈雜的醫院環(huán)境下的語(yǔ)音識別率也可達82.5%以上。識別率方面,在嘈雜環(huán)境下比在安靜環(huán)境下的語(yǔ)音識別率有所降低;穩定性方面,在安靜環(huán)境下系統的穩定性較好,語(yǔ)音說(shuō)1遍,最多說(shuō)2遍模塊就可以做出正確的響應;在噪聲環(huán)境下,系統的穩定性有所下降,個(gè)別語(yǔ)音命令需要說(shuō)3遍甚至3遍以上才能被模塊準確識別;實(shí)時(shí)性方面,在安靜環(huán)境下的語(yǔ)音能保證系統響應的實(shí)時(shí)性,響應時(shí)間一般不超過(guò)1 s,在噪聲環(huán)境下的響應時(shí)間相對長(cháng)一些。
結語(yǔ)
本文討論了基于STM32的嵌入式語(yǔ)音識別模塊的設計和實(shí)現,對模塊各個(gè)組成單元的硬件電路及軟件實(shí)現進(jìn)行了詳細的介紹。大量實(shí)驗及實(shí)際應用表明,本文設計的語(yǔ)音識別模塊具有穩定性好、語(yǔ)音識別率高、抗噪聲干擾能力強、結構簡(jiǎn)單和使用方便等特點(diǎn)。該模塊實(shí)用性強,可廣泛應用于服務(wù)機器人智能空間、智能家居和消費電子產(chǎn)品等多個(gè)領(lǐng)域。
單片機與嵌入式系統
相關(guān)閱讀:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
仪征市|
溆浦县|
绥棱县|
汉中市|
横峰县|
新兴县|
阜康市|
高邑县|
东乡族自治县|
封开县|
正阳县|
高淳县|
莎车县|
钦州市|
当涂县|
阿拉尔市|
郓城县|
班玛县|
浙江省|
灵丘县|
古蔺县|
松桃|
太仆寺旗|
双峰县|
综艺|
浦城县|
十堰市|
荣昌县|
镇巴县|
定州市|
伊金霍洛旗|
汕头市|
岱山县|
徐汇区|
赣榆县|
广平县|
比如县|
松潘县|
苏州市|
贡嘎县|
新巴尔虎右旗|
http://444
http://444
http://444
http://444
http://444
http://444