• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁 > 技術(shù) > 技術(shù)文摘 > 語音識別應(yīng)用促進技術(shù)發(fā)展

    語音識別應(yīng)用促進技術(shù)發(fā)展

    2006-07-31 00:00:00   作者:   來源:   評論:0 點擊:




      在發(fā)達國家各種各樣基于語音識別技術(shù)的產(chǎn)品已經(jīng)可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實現(xiàn)。基于特定任務(wù)和環(huán)境的聽寫機也已經(jīng)進入應(yīng)用階段。語音識別技術(shù)是非常重要的人機交互技術(shù),有著非常廣泛的應(yīng)用前景。

      說話者自適應(yīng)技術(shù)近年在語音識別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語音識別系統(tǒng)比與人無關(guān)的語音識別系統(tǒng)的識別率要高很多。通過有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識別能力。實際上說話人自適應(yīng)技術(shù)和穩(wěn)健語音自適應(yīng)技術(shù)是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

      靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數(shù)的歸一化處理或?qū)φf話人進行分類處理,如分男女聲的識別系統(tǒng)就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

      動態(tài)處理方法。對預(yù)先訓(xùn)練好的與人無關(guān)識別系統(tǒng),通過臨時得到的特定人語音數(shù)據(jù)對系統(tǒng)的模板或特征參數(shù)進行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個用于特定任務(wù)、特定環(huán)境或特定說話人的系統(tǒng),這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進模式、即時模式; 按自適應(yīng)學(xué)習(xí)策略又分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來看是由難到易,而算法實現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對識別率的要求等因素。對于聽寫機等應(yīng)用來說,最具吸引力的是累進、無監(jiān)督的自適應(yīng)方式,也稱在線自適應(yīng)。

      語言模型也是目前研究的一個重要方面。目前的語言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計語言模型是通過大量任務(wù)特定的語料訓(xùn)練出來的。通過新聞?wù)Z料訓(xùn)練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應(yīng)語言模型。在靜態(tài)語言模型的基礎(chǔ)上,通過一個高速緩沖存儲器對語言模型進行動態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語言模型,然后通過混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅(qū)動的聚類算法產(chǎn)生的各種類。

      由于不同詞可以屬于同一類,這樣類比較大,構(gòu)成的語言模型就比較穩(wěn)健。其關(guān)鍵的問題是如何決定詞的分類,由于詞的分類比較復(fù)雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現(xiàn)自動分類的算法,即使用數(shù)據(jù)驅(qū)動算法也還沒有很好地解決。基于統(tǒng)計技術(shù)的計算語言學(xué)已經(jīng)越來越受到重視,它解決了單獨規(guī)則語言模型不能解決的一些問題。當(dāng)然統(tǒng)計語言模型也不能解決全部問題,因此如何把統(tǒng)計語言模型和基于規(guī)則的語言模型結(jié)合也是語言模型研究的重點之一。

      目前不同快速語音識別算法都在開發(fā)中。其中包括對HMM狀態(tài)輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內(nèi)存需求方法,以及結(jié)合計算機結(jié)構(gòu)特點的編程技術(shù)的應(yīng)用。

      鏈接:穩(wěn)健語音識別技術(shù)

      語音識別系統(tǒng)的穩(wěn)健性技術(shù)是到目前還沒有解決好的重要問題。穩(wěn)健語音識別要解決的問題是訓(xùn)練環(huán)境和實用環(huán)境不同而導(dǎo)致的不匹配問題。由于環(huán)境變化多種多樣,識別系統(tǒng)要面對不同說話風(fēng)格的人(包括說話快慢、音調(diào)、重音變化、情緒變化、年齡不同、聲道長度的不同等等)、不同麥克風(fēng)的種類(包括麥克風(fēng)的相對位置和方向變化)、信道畸變和噪聲,以及說話的環(huán)境(包括房屋回響、背景噪聲等)。

      穩(wěn)健語音識別技術(shù)包括三個方面:1. 穩(wěn)健語音特征提取和預(yù)處理技術(shù)。其中包括噪聲掩蓋處理技術(shù)、特征變換、聽覺模型,以及不同穩(wěn)健和可信度測度的研究。研究的中心是最大可能的開采語音中的整體信息,以便盡可能地減少噪聲的干擾。2. 多樣式的訓(xùn)練是一種有效方法,但這種訓(xùn)練要求取得大量不同噪聲情況下的語音數(shù)據(jù),這使該種方法實現(xiàn)非常困難。3.自適應(yīng)的特征或模型的補償技術(shù)。其中包括簡單的自適應(yīng)均值偏差消除,進一步包括方差補償,線性和非線性的回歸和變換,基于狀態(tài)的濾波,語音和噪聲復(fù)合模型,最大后驗自適應(yīng)算法,隨機匹配算法。這些不同技術(shù)有的僅僅在不同的小范圍內(nèi)獲得有限成功,還沒有一種技術(shù)在大詞匯量的語音識別系統(tǒng)中獲得成功。

    計算機世界網(wǎng)(www.ccw.com.cn)

    相關(guān)閱讀:

    分享到: 收藏

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 道孚县| 孝感市| 沈阳市| 马鞍山市| 兴隆县| 奉化市| 苍溪县| 白银市| 怀柔区| 阳山县| 浦城县| 安平县| 天门市| 新竹县| 武乡县| 理塘县| 新田县| 武穴市| 洱源县| 务川| 都江堰市| 晴隆县| 龙陵县| 温泉县| 寿宁县| 长治县| 信宜市| 福安市| 酉阳| 松原市| 武汉市| 江源县| 威海市| 社会| 江永县| 新民市| 饶河县| 驻马店市| 浠水县| 许昌市| 神池县| http://444 http://444 http://444 http://444 http://444 http://444