• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 技術(shù) > 技術(shù)文摘 > 語(yǔ)音識別:PDA的理想輸入選擇

    語(yǔ)音識別:PDA的理想輸入選擇

    2001-09-27 00:00:00   作者:   來(lái)源:   評論:0 點(diǎn)擊:


     

    用戶(hù)不斷地要求所用裝置更小、更輕便同時(shí)又更易于使用。能解決這三方面問(wèn)題的一種可行技術(shù)就是語(yǔ)音識別。這種技術(shù)由于清除了傳統的輸入器件(如鍵盤(pán)或筆接口),故具備更小和更輕便的特點(diǎn)。   

    解決容易使用問(wèn)題更需要有一點(diǎn)技巧,裝置所采用的技術(shù)是否恰當。從某種意義上講,這又必須根據目標應用是什么而采取不同的處理。語(yǔ)音識別兩個(gè)最通用的模式是語(yǔ)音從屬和語(yǔ)音獨立。   

    語(yǔ)音從屬與語(yǔ)音獨立   

    語(yǔ)音從屬意味著(zhù)必須有培訓系統而且通常它只可識別培訓系統的人所講的詞。語(yǔ)音獨立系統則可以識別幾乎所有講話(huà)人的詞。在這種情況下,可以聽(tīng)懂的詞匯通常也是相當有限的。   

    語(yǔ)音從屬的一個(gè)例子是語(yǔ)音撥號器,在語(yǔ)音撥號中用戶(hù)輸入要存儲的人名。幾次重復這些名字,撥號器正確地“記錄”是如何講的。當它聽(tīng)到這些名字時(shí),它給出適當的信息,也有采用自動(dòng)撥號機撥號的。語(yǔ)音獨立使用的是計算器,它只有15個(gè)詞:10個(gè)數字和算術(shù)運算。   

    如何處理來(lái)自不同制造廠(chǎng)家的詞匯,Sensory公司采用把用語(yǔ)(vocabulary)劃分成詞組(word set)。根據應用,把很多必需用的詞組成一個(gè)命令樹(shù)(command tree),這里的限制因素是系統的存儲器容量,它通常取決于系統中可用的存儲量或成本預算。   

    對于語(yǔ)音獨立詞組來(lái)講,存儲器需要量大約為700字節/詞。在語(yǔ)音從屬模式中,它為128字節/詞。   

    Sensory公司設置語(yǔ)音獨立詞組為14個(gè)詞。如果用戶(hù)有很多詞要識別,則可在一個(gè)命令樹(shù)中建立自己的應用分支,只需用一個(gè)低音命令分支為獨立的功能,其中每一個(gè)功能都具有它自己的語(yǔ)音獨立詞組。這樣它對每一個(gè)詞都有不同的上下文,在詞組中通過(guò)共享可以再用這些詞。   

    在語(yǔ)音撥號器應用中,第一命令包“friends(朋友)”,“busiress(業(yè)務(wù))”和“relatives(親戚)”等。根據所講的這些詞,系統將轉移到第二組命令,如所含的詞為“first”(對于人名,從字母表前半部分的一個(gè)字母開(kāi)始)或“l(fā)ast”(對于人名從字母表的后半分部一個(gè)字母開(kāi)始)。直到找到所希望的名字為止。   

    語(yǔ)音獨立和語(yǔ)音從屬之間的另一個(gè)差別是所需要的存儲量,因為語(yǔ)音獨立系統已經(jīng)被培訓,它的700字節/詞直接包含在應用代碼中。代碼一般存儲在片外ROM、非易失存儲器(如閃存)或直接掩膜進(jìn)微控制器中。   

    語(yǔ)音從屬詞匯需要在運行時(shí)間存儲到可寫(xiě)存儲器中,這不是困難的,因為通常它只需很小的存儲量。一個(gè)EEPROM器件通常即可擔當此任。在128字節/詞中,64個(gè)詞可存儲在一個(gè)k字節EEPROM中,這對于大部分的應用是合適的。   

    影響語(yǔ)音識別系統精度的因素之一是所接收的信號品質(zhì),主要由兩個(gè)因素(背景噪聲和所用傳聲器)確定。   

    背景噪聲可用系統內的噪聲消除算法處理。建議用定向傳聲器,往往傳聲器本身具有內含的噪聲消除功能。   

    傳聲器空間問(wèn)題   

    由于大部分便攜裝置所采用的體積尺寸會(huì )對傳聲器產(chǎn)生另外的問(wèn)題。它們是如此的小,以致使分配給傳聲器的空間不夠大或不是最好的位置。通常他們也沒(méi)有處理語(yǔ)音識別的設計。   

    現在可用的傳聲器對于語(yǔ)音從屬系統是可以接受的,但現在的傳聲器不適合用在實(shí)現語(yǔ)音獨立的平臺上。   

    在視距范圍內,目前普遍采用手持裝置實(shí)現移動(dòng)口授。這意味著(zhù)用戶(hù)可用PDA檢索他們的e-mail,以口授應答進(jìn)入PDA,然后無(wú)線(xiàn)發(fā)送應答或接入連接的PC。   

    可惜現在沒(méi)有一個(gè)可接受的嵌入傳聲器能滿(mǎn)足在手持裝置中進(jìn)行e-mail所需求的精度。   

    很多設計人員希望增加語(yǔ)音識別到現有的產(chǎn)品中。識別問(wèn)題嚴重受限制的原因是把傳聲器放在何處和如何設計。雖然設計人員喜歡采用功能強的處理器來(lái)處理此問(wèn)題,但是,具有高性能的處理器將無(wú)助于問(wèn)題的解決。假若輸入信號有缺陷,你對它做的再多也沒(méi)有用。靜電、噪聲和回路等都能影響語(yǔ)音的品質(zhì)。   

    試用DSP

    設計一個(gè)語(yǔ)音識別系統最好方法之一是采用DSP。Sensory公司最近推出Voice Activation軟件,該軟件適合DSP基應用(如電話(huà)、無(wú)線(xiàn)設備、汽車(chē)和消費類(lèi)電子)。Voice Activation軟件是為高噪聲環(huán)境應用設計的。該公司聲稱(chēng)基于該軟件的系統在80dB噪聲環(huán)境中可達到優(yōu)于98%的精度。   

    利用DSP算法的另一結構出自Advanced Recognition Technologies公司,該公司的語(yǔ)音識別技術(shù)稱(chēng)之為smARTspeak,它與WinCE兼容并可定制用于專(zhuān)用的OS,適用于蜂窩電話(huà)和PDA市場(chǎng)。   

    ART的識別算法可運行在價(jià)廉、低性能、具有最小存儲器的微處理器中。另外,這些算法用綜合API(應用編程接口)系統書(shū)寫(xiě),使它們很容易地轉移或應用于幾乎所有裝置。Port此技術(shù)的優(yōu)點(diǎn)是通過(guò)軟件實(shí)現語(yǔ)音控制,不增加系統的硬件成本。   

    Sensory公司的微處理器為便攜系統提供了關(guān)鍵性能——低功率和休眠模式以降低功耗。處理器可自己置到休眠,同時(shí)借助一條I/O線(xiàn)(一般用一按鍵)喚醒,或用一個(gè)內部定時(shí)器作周期性喚醒。   

    用RSC-264T和RSC-364芯片進(jìn)行設計時(shí)必須用外部ROM。RSC-264T是一款低檔器件,用在對成本敏感的消費類(lèi)電子和玩具中。它是一個(gè)8位微控制器,類(lèi)似于工業(yè)標準8051。這可使熟悉8051指令系統的設計人員能很快開(kāi)始編寫(xiě)代碼。一個(gè)片上傳聲器前置放大器有助于進(jìn)一步降低系統成本。RSC-364是一款高檔器件,設計用于消費類(lèi)電子和電話(huà)應用。   

    盡管這些器件是專(zhuān)門(mén)為語(yǔ)音識別設計的,但它們仍具有處理通用微處理器任務(wù)的能力。一個(gè)小系統不需要獨立的處理器,以避免增加電流損耗和成本。能工作在2.4~2.5V的系統,可采用兩節AAA電池供電。   

    一個(gè)RISC芯核(如Hitachi公司的SH)可做為語(yǔ)音識別的處理器,其中軟件編程接口(SPI)位于處理器和應用部件之間(見(jiàn)圖1)。  

    圖1 用RISC芯核實(shí)現語(yǔ)音識別

    Information Storage Devices公司設計的VoiceDSP也是基于DSP結構基礎上。該產(chǎn)品把多種DSP功能集成在單片上,為電話(huà)、汽車(chē)和消費類(lèi)應用提供優(yōu)異的成本效率解決方案。   

    ISD-T360SA處理器把16位DSP和16位RISC芯核技術(shù)結合在一起(見(jiàn)圖2)。它具有系統支持功能,如中斷控制單元、編碼/解碼器接口(主和從)、到主系統微控制器的接口,以及閃存和DRAM用的存儲器處理。片上ROM存有VoiceDSP軟件。

    圖2 集成DSP和RISC芯核技術(shù)

    語(yǔ)音壓縮是語(yǔ)音識別的另一方面。Digital Voice Systems的AMBE-2000是一款聲碼器,它含有該公司的AMBE+聲碼器技術(shù)。它提供長(cháng)途應用品質(zhì)的語(yǔ)音(在4kbits),可工作在2~9.6kbits/s任何用戶(hù)確定的位率。它包含一個(gè)帶內置Viterbi譯碼器的卷積FEC編碼器(它具有4位軟決策譯碼)。   

    AMBE-2000特性有:3V工作,半雙工或全雙工模式,自動(dòng)語(yǔ)音和無(wú)聲檢測以及回聲消除。這些特性使它很適合于無(wú)線(xiàn)應用。用TIDSP芯核可簡(jiǎn)化代碼寫(xiě)入。   

    專(zhuān)用和標準OS  

    與PDA有關(guān)的最通用的操作系統是Windows CE和Palm OS。大部分的手持裝置運行專(zhuān)用OS。幾乎所有的便攜裝置都具有不同的配置、占位置面積、CPU和存儲器子系統。從第三方開(kāi)發(fā)者的觀(guān)點(diǎn),迫切希望選擇一種或兩種平臺進(jìn)行開(kāi)發(fā)。現在,這兩種平臺就是WinCE和Palm OS。   

    在應用軟件方面,Dragon Systems公司的Naturally Speaking Mobile Organizer易使用戶(hù)的講話(huà)變?yōu)閑-mail。此軟件不僅識別所講的詞,而且分析講了什么并產(chǎn)生所希望的操作。例如,用戶(hù)講“send an e-mail”(發(fā)e-mail)或“schedule an appoinement”(安排約會(huì )),錄音器在PDA中存儲信息直到用戶(hù)的計算機可用為止。然后,當PDA PC連接時(shí)PC記錄和分析所講的內容。最后,Naturally Speaking Mobile Organizer命令應用采取適當的操作。兼容的應用包括Microsoft Outlook 98,Palm Pilot Desktop,Lotus Notes,Gold Mine和Symantec ACT! 4.0等。

    摘自PDA時(shí)代

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 颍上县| 桂东县| 金秀| 安顺市| 淳安县| 青神县| 阿合奇县| 武乡县| 通州市| 兴文县| 姜堰市| 张家口市| 新疆| 皮山县| 高平市| 马尔康县| 和平县| 乌兰浩特市| 读书| 错那县| 锡林郭勒盟| 华池县| 宜宾市| 会宁县| 会同县| 辽中县| 明水县| 淮滨县| 文昌市| 江川县| 中卫市| 德令哈市| 巫溪县| 吉隆县| 苍溪县| 卫辉市| 修水县| 泰顺县| 措美县| 惠安县| 江陵县| http://444 http://444 http://444 http://444 http://444 http://444