首頁 > 技術(shù) > 技術(shù)文摘 > 語音識別：PDA的理想輸入選擇

語音識別：PDA的理想輸入選擇

2001-09-27 00:00:00 作者：來源：評論：0 點(diǎn)擊：

用戶不斷地要求所用裝置更小、更輕便同時(shí)又更易于使用。能解決這三方面問題的一種可行技術(shù)就是語音識別。這種技術(shù)由于清除了傳統(tǒng)的輸入器件（如鍵盤或筆接口），故具備更小和更輕便的特點(diǎn)。　　

解決容易使用問題更需要有一點(diǎn)技巧，裝置所采用的技術(shù)是否恰當(dāng)。從某種意義上講，這又必須根據(jù)目標(biāo)應(yīng)用是什么而采取不同的處理。語音識別兩個(gè)最通用的模式是語音從屬和語音獨(dú)立。　　

語音從屬與語音獨(dú)立 　　

語音從屬意味著必須有培訓(xùn)系統(tǒng)而且通常它只可識別培訓(xùn)系統(tǒng)的人所講的詞。語音獨(dú)立系統(tǒng)則可以識別幾乎所有講話人的詞。在這種情況下，可以聽懂的詞匯通常也是相當(dāng)有限的。　　

語音從屬的一個(gè)例子是語音撥號器，在語音撥號中用戶輸入要存儲的人名。幾次重復(fù)這些名字，撥號器正確地“記錄”是如何講的。當(dāng)它聽到這些名字時(shí)，它給出適當(dāng)?shù)男畔�，也有采用自動撥號機(jī)撥號的。語音獨(dú)立使用的是計(jì)算器，它只有15個(gè)詞：10個(gè)數(shù)字和算術(shù)運(yùn)算。　　

如何處理來自不同制造廠家的詞匯，Sensory公司采用把用語（vocabulary）劃分成詞組（word set）。根據(jù)應(yīng)用，把很多必需用的詞組成一個(gè)命令樹（command tree），這里的限制因素是系統(tǒng)的存儲器容量，它通常取決于系統(tǒng)中可用的存儲量或成本預(yù)算。　　

對于語音獨(dú)立詞組來講，存儲器需要量大約為700字節(jié)/詞。在語音從屬模式中，它為128字節(jié)/詞。　　

Sensory公司設(shè)置語音獨(dú)立詞組為14個(gè)詞。如果用戶有很多詞要識別，則可在一個(gè)命令樹中建立自己的應(yīng)用分支，只需用一個(gè)低音命令分支為獨(dú)立的功能，其中每一個(gè)功能都具有它自己的語音獨(dú)立詞組。這樣它對每一個(gè)詞都有不同的上下文，在詞組中通過共享可以再用這些詞。　　

在語音撥號器應(yīng)用中，第一命令包“friends(朋友)”，“busiress(業(yè)務(wù))”和“relatives(親戚)”等。根據(jù)所講的這些詞，系統(tǒng)將轉(zhuǎn)移到第二組命令，如所含的詞為“first”（對于人名，從字母表前半部分的一個(gè)字母開始）或“l(fā)ast”（對于人名從字母表的后半分部一個(gè)字母開始）。直到找到所希望的名字為止。　　

語音獨(dú)立和語音從屬之間的另一個(gè)差別是所需要的存儲量，因?yàn)檎Z音獨(dú)立系統(tǒng)已經(jīng)被培訓(xùn)，它的700字節(jié)/詞直接包含在應(yīng)用代碼中。代碼一般存儲在片外ROM、非易失存儲器（如閃存）或直接掩膜進(jìn)微控制器中。　　

語音從屬詞匯需要在運(yùn)行時(shí)間存儲到可寫存儲器中，這不是困難的，因?yàn)橥ǔＫ恍韬苄〉拇鎯α俊Ｒ粋€(gè)EEPROM器件通常即可擔(dān)當(dāng)此任。在128字節(jié)/詞中，64個(gè)詞可存儲在一個(gè)k字節(jié)EEPROM中，這對于大部分的應(yīng)用是合適的。　　

影響語音識別系統(tǒng)精度的因素之一是所接收的信號品質(zhì)，主要由兩個(gè)因素（背景噪聲和所用傳聲器）確定。　　

背景噪聲可用系統(tǒng)內(nèi)的噪聲消除算法處理。建議用定向傳聲器，往往傳聲器本身具有內(nèi)含的噪聲消除功能。　　

傳聲器空間問題 　　

由于大部分便攜裝置所采用的體積尺寸會對傳聲器產(chǎn)生另外的問題。它們是如此的小，以致使分配給傳聲器的空間不夠大或不是最好的位置。通常他們也沒有處理語音識別的設(shè)計(jì)。　　

現(xiàn)在可用的傳聲器對于語音從屬系統(tǒng)是可以接受的，但現(xiàn)在的傳聲器不適合用在實(shí)現(xiàn)語音獨(dú)立的平臺上。　　

在視距范圍內(nèi)，目前普遍采用手持裝置實(shí)現(xiàn)移動口授。這意味著用戶可用PDA檢索他們的e-mail，以口授應(yīng)答進(jìn)入PDA，然后無線發(fā)送應(yīng)答或接入連接的PC。　　

可惜現(xiàn)在沒有一個(gè)可接受的嵌入傳聲器能滿足在手持裝置中進(jìn)行e-mail所需求的精度。　　

很多設(shè)計(jì)人員希望增加語音識別到現(xiàn)有的產(chǎn)品中。識別問題嚴(yán)重受限制的原因是把傳聲器放在何處和如何設(shè)計(jì)。雖然設(shè)計(jì)人員喜歡采用功能強(qiáng)的處理器來處理此問題，但是，具有高性能的處理器將無助于問題的解決。假若輸入信號有缺陷，你對它做的再多也沒有用。靜電、噪聲和回路等都能影響語音的品質(zhì)。　　

試用DSP

設(shè)計(jì)一個(gè)語音識別系統(tǒng)最好方法之一是采用DSP。Sensory公司最近推出Voice Activation軟件，該軟件適合DSP基應(yīng)用（如電話、無線設(shè)備、汽車和消費(fèi)類電子）。Voice Activation軟件是為高噪聲環(huán)境應(yīng)用設(shè)計(jì)的。該公司聲稱基于該軟件的系統(tǒng)在80dB噪聲環(huán)境中可達(dá)到優(yōu)于98%的精度。　　

利用DSP算法的另一結(jié)構(gòu)出自Advanced Recognition Technologies公司，該公司的語音識別技術(shù)稱之為smARTspeak，它與WinCE兼容并可定制用于專用的OS，適用于蜂窩電話和PDA市場。　　

ART的識別算法可運(yùn)行在價(jià)廉、低性能、具有最小存儲器的微處理器中。另外，這些算法用綜合API（應(yīng)用編程接口）系統(tǒng)書寫，使它們很容易地轉(zhuǎn)移或應(yīng)用于幾乎所有裝置。Port此技術(shù)的優(yōu)點(diǎn)是通過軟件實(shí)現(xiàn)語音控制，不增加系統(tǒng)的硬件成本。　　

Sensory公司的微處理器為便攜系統(tǒng)提供了關(guān)鍵性能——低功率和休眠模式以降低功耗。處理器可自己置到休眠，同時(shí)借助一條I/O線（一般用一按鍵）喚醒，或用一個(gè)內(nèi)部定時(shí)器作周期性喚醒。　　

用RSC-264T和RSC-364芯片進(jìn)行設(shè)計(jì)時(shí)必須用外部ROM。RSC-264T是一款低檔器件，用在對成本敏感的消費(fèi)類電子和玩具中。它是一個(gè)8位微控制器，類似于工業(yè)標(biāo)準(zhǔn)8051。這可使熟悉8051指令系統(tǒng)的設(shè)計(jì)人員能很快開始編寫代碼。一個(gè)片上傳聲器前置放大器有助于進(jìn)一步降低系統(tǒng)成本。RSC-364是一款高檔器件，設(shè)計(jì)用于消費(fèi)類電子和電話應(yīng)用。　　

盡管這些器件是專門為語音識別設(shè)計(jì)的，但它們?nèi)跃哂刑幚硗ㄓ梦⑻幚砥魅蝿?wù)的能力。一個(gè)小系統(tǒng)不需要獨(dú)立的處理器，以避免增加電流損耗和成本。能工作在2.4～2.5V的系統(tǒng)，可采用兩節(jié)AAA電池供電。　　

一個(gè)RISC芯核（如Hitachi公司的SH）可做為語音識別的處理器，其中軟件編程接口（SPI）位于處理器和應(yīng)用部件之間（見圖1）。　

圖1 用RISC芯核實(shí)現(xiàn)語音識別

Information Storage Devices公司設(shè)計(jì)的VoiceDSP也是基于DSP結(jié)構(gòu)基礎(chǔ)上。該產(chǎn)品把多種DSP功能集成在單片上，為電話、汽車和消費(fèi)類應(yīng)用提供優(yōu)異的成本效率解決方案。　　

ISD-T360SA處理器把16位DSP和16位RISC芯核技術(shù)結(jié)合在一起（見圖2）。它具有系統(tǒng)支持功能，如中斷控制單元、編碼/解碼器接口（主和從）、到主系統(tǒng)微控制器的接口，以及閃存和DRAM用的存儲器處理。片上ROM存有VoiceDSP軟件。

圖2 集成DSP和RISC芯核技術(shù)

語音壓縮是語音識別的另一方面。Digital Voice Systems的AMBE-2000是一款聲碼器，它含有該公司的AMBE+聲碼器技術(shù)。它提供長途應(yīng)用品質(zhì)的語音（在4kbits），可工作在2～9.6kbits/s任何用戶確定的位率。它包含一個(gè)帶內(nèi)置Viterbi譯碼器的卷積FEC編碼器（它具有4位軟決策譯碼）。　　

AMBE-2000特性有：3V工作，半雙工或全雙工模式，自動語音和無聲檢測以及回聲消除。這些特性使它很適合于無線應(yīng)用。用TIDSP芯核可簡化代碼寫入。　　

專用和標(biāo)準(zhǔn)OS　　

與PDA有關(guān)的最通用的操作系統(tǒng)是Windows CE和Palm OS。大部分的手持裝置運(yùn)行專用OS。幾乎所有的便攜裝置都具有不同的配置、占位置面積、CPU和存儲器子系統(tǒng)。從第三方開發(fā)者的觀點(diǎn)，迫切希望選擇一種或兩種平臺進(jìn)行開發(fā)�，F(xiàn)在，這兩種平臺就是WinCE和Palm OS。　　

在應(yīng)用軟件方面，Dragon Systems公司的Naturally Speaking Mobile Organizer易使用戶的講話變?yōu)閑-mail。此軟件不僅識別所講的詞，而且分析講了什么并產(chǎn)生所希望的操作。例如，用戶講“send an e-mail”（發(fā)e-mail）或“schedule an appoinement”（安排約會），錄音器在PDA中存儲信息直到用戶的計(jì)算機(jī)可用為止。然后，當(dāng)PDA PC連接時(shí)PC記錄和分析所講的內(nèi)容。最后，Naturally Speaking Mobile Organizer命令應(yīng)用采取適當(dāng)?shù)牟僮�。兼容的�?yīng)用包括Microsoft Outlook 98，Palm Pilot Desktop，Lotus Notes，Gold Mine和Symantec ACT! 4.0等。

摘自PDA時(shí)代

相關(guān)熱詞搜索：

上一篇:建呼叫中心要關(guān)注哪些技術(shù)？

下一篇:中國電信數(shù)據(jù)通信局客戶服務(wù)系統(tǒng)

相關(guān)閱讀：

分享到：