• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁 > 技術 > 技術文摘 > 數據挖掘走入語音處理

    數據挖掘走入語音處理

    2001-06-04 00:00:00   作者:   來源:   評論:0 點擊:


     

    王瑋 蔡蓮紅 2001/06/04

    數據挖掘技術

      數據挖掘(data mining)技術是對數據庫采取半自動的方式,尋找特定的模式、關聯規(guī)則、變化規(guī)律、異常信息等具有統(tǒng)計意義的結構和事件。自20世紀90年代以來,數據挖掘就成為最具活力的研究領域之一,吸引了眾多研究者從事這方面的研究。

    1.數據挖掘方法的特點

      數據挖掘方法與統(tǒng)計方法的不同之處主要體現在:通常的統(tǒng)計方法是在已有的假設基礎上,從大量的數據中得到驗證,而數據挖掘則是從大量的數據中得到嶄新的模式、結論和假設;數據挖掘方法是純粹的給予數據驅動的方式,而統(tǒng)計方法則更多地引入人為因素并加以分析。探索式數據分析是統(tǒng)計方法中與數據挖掘最相似的分支,但它所面向的數據集還是比數據挖掘對象小得多。

    2.數據挖掘的過程

      數據挖掘過程可粗略地分為:問題定義(task definition)、數據準備和預處理(data preparation and preprocessing)、數據挖掘(data mining)以及結果的解釋和評估(interpretation and evaluation)等階段。

      問題定義 在該過程中,數據挖掘人員必須與領域專家及最終用戶緊密協(xié)作,一方面明確實際工作對數據挖掘的要求,另一方面通過對各種學習算法的對比進而確定可用的學習算法。后續(xù)的學習算法選擇和數據集準備都是在此基礎上進行的。

      數據挖掘 該階段首先根據對問題的定義明確挖掘的任務或目的,如分類、聚類、關聯規(guī)則發(fā)現或序列模式發(fā)現等。之后要決定使用什么樣的算法。選擇實現算法要考慮兩個因素:一是不同的數據有不同的特點,因此,需要用與之相關的算法來挖掘;二是要根據用戶或實際運行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(descriptive)、容易理解的知識(采用規(guī)則表示的挖掘方法顯然要好于神經網絡之類的方法),而有的用戶只是希望獲取預測準確度盡可能高的預測型(predictive)知識,并不在意獲取的知識是否易于理解。

      結果解釋和評估 數據挖掘階段發(fā)現的模式,經過評估,可能存在冗余或無關的模式,這時需要將其剔除;模式也有可能不滿足用戶要求,這時則需要整個發(fā)現過程回退到前續(xù)階段,如重新選取數據、采用新的數據變換方法、設定新的參數值,甚至換一種算法等。

    3.挖掘結果質量評價

      數據挖掘結果質量的好壞有兩個影響因素:一是所采用的數據挖掘技術的有效性,二是用于挖掘的數據的質量和數據量。如果選擇了錯誤的數據或不適當的屬性,或對數據進行了不適當的轉換,則挖掘結果不會好。整個挖掘過程是一個不斷反饋的過程。

    4.主要模型

    (1) 關聯規(guī)則模型

      發(fā)現數據庫中數據項之間的相互關系是十分重要的,根據這種關系可以使用戶從數據中找到有意義的模式和趨勢。以超級市場為例,每個記錄包含了一次采購商品的列表,其中關聯關系告訴我們兩件或更多商品之間的關系。如80%的顧客購買了面包和牛奶,其中有60%的顧客在買面包的同時買了牛奶。我們把這種面包和牛奶之間的關聯關系用下列規(guī)則方式表示為:面包→ 牛奶 |60%80%)。數據項的關聯關系也可以在多個項之間產生,例如:面包、牛奶 甜醬 | 60%40%)等。目前采用的典型關聯算法有Aprioir算法和PHP散列表算法等。

    (2) 神經網絡模型

      神經網絡方法是模擬人腦神經元結構,以MP模型和Hebb學習規(guī)則為基礎而建立的,主要有三大類多種神經網絡模型。

      前饋式網絡 以感知機、反向傳播模型、函數型網絡為代表,可用于預測、模式識別等方面。

      反饋式網絡 Hopfield的離散模型和連續(xù)模型為代表,分別用于聯想記憶和優(yōu)化計算。

      自組織網絡 ART模型、Kohonen模型為代表,用于聚類。

      神經網絡的知識體現在網絡連接的權值上,是一個分布式矩陣結構。神經網絡的學習體現在神經網絡權值的逐步計算上(包括反復迭代或累加計算)。

    (3) 粗糙集理論模型

      粗糙集理論是一種研究不精確、不確定性知識的數學工具,由波蘭科學家Z.Pawlak1982年首先提出。粗糙集的研究主要基于分類。分類和概念(concept)同義,一種類別對應于一個概念(類別一般表示為外延即集合,而概念常以內涵的形式表示如規(guī)則描述)。知識由概念組成,如果某知識中含有不精確概念,則該知識不精確。粗糙集對不精確概念的描述方法是:通過上近似概念和下近似概念這兩個精確概念來表示。一個概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。粗糙集方法有幾個優(yōu)點:不需要預先知道額外信息,如統(tǒng)計中要求的先驗概率和模糊集中要求的隸屬度;算法簡單、易于操作。

    在語音信號處理中的應用

      目前,數據挖掘研究主要集中在對新的算法及新的類型的研究上。由于對數據挖掘方法的研究不僅涉及數據挖掘的算法,同時對于需要處理的數據類型也有很高的要求,傳統(tǒng)的數據挖掘的對象主要是超級市場中貨籃型數據及經濟型數據,幾乎很少涉及語音數據的挖掘研究。這一方面是由于語音數據非常復雜,包含很多信息,如基頻信息、時長信息、幅度信息、位置信息以及重音信息等,簡單來說就是同一個音節(jié)在不同的語句中會表現出不同的信息特征,即不同的語境會使音節(jié)自身的屬性值發(fā)生變化,且語音數據是一種時序數據,在一句話中音節(jié)的排列是有先后順序的,同時語音音節(jié)之間也存在著很強的音聯關系。所有這些信息特征對整個合成系統(tǒng)輸出的可懂度以及自然度會產生很大影響。

      另一方面,語音數據挖掘的研究需要研究者在語音合成工作積累的基礎上才能有效地進行。由于數據挖掘技術對處理對象的要求很高,因此,直接錄制音節(jié)的波形文件是無法處理的,必須經過嚴格的預處理過程,如對錄音波形進行音節(jié)切分和音節(jié)標注,這需要大量的人力和物力資源。沒有強大的語音處理能力的積累是不可能的。清華大學語音處理實驗室長期從事語音信號的研究,具有豐富的語音數據源,即我們通常所說的“熟語料”,這使基于數據驅動的挖掘研究成為可能。將數據挖掘技術應用于語音信號處理可以解決部分現階段較難解決的語音技術難題,同時盡可能減少人為經驗因素對語音處理的影響,完成對語音處理從定性到定量的轉變。因此,將數據挖掘方法應用于語音合成具有重要的意義和廣闊的前景。

    1.關聯規(guī)則模型獲得漢語韻律參數之間的關聯關系

      語音合成經歷了長期的研究發(fā)展過程,完成了從實驗室向市場應用的過渡,但是,合成系統(tǒng)輸出的語音機器味仍然比較濃,與人類自然流暢的發(fā)音相比還有較大的差距。這其中主要是受到系統(tǒng)中韻律模塊研究的制約,由于韻律模塊無法對復雜的韻律特征進行有效描述,因此,合成系統(tǒng)的輸出就受到了很大的影響。

      韻律特征主要是指音節(jié)的時長、基頻的包絡變化、能量的變化及適當的停頓等眾多參數屬性,在這些屬性中,對合成系統(tǒng)的自然度影響最顯著的是音節(jié)的基頻變化和音長的變化。目前,合成系統(tǒng)中的基頻變化規(guī)律大多是根據語言學的研究得出的一些定性的描述,這些定性規(guī)則能夠為合成過程提供一些參考,但是無法在合成過程中直接使用這些規(guī)則,而且這些規(guī)則也很難覆蓋所有的基頻變化現象,同時對這些規(guī)則的維護和完善也很困難,在具體應用中仍存在較大的不足。由于韻律規(guī)則在語音合成中發(fā)揮著重要作用,迫切需要采用新的處理方法加以解決。

      數據挖掘技術中關聯規(guī)則模型可以很好地發(fā)現數據項之間存在的相互關系,同時有大量的挖掘算法可供選擇,因此,基于關聯規(guī)則的模型可以從大規(guī)模語音庫中提取更為全面和準確的語音韻律相互關系。首先通過對“熟語料”庫中基頻數據和時長數據進行預處理,離散化成相應的屬性值,獲得前后音節(jié)的基頻信息和時長信息之間的關聯關系,從而加以指導合成系統(tǒng)的選音,滿足在不同語境下音節(jié)參數變化的需求。

    2.數據挖掘技術獲得漢語韻律的變化規(guī)律

      在傳統(tǒng)的語音研究中,往往是用手工得到語音的基頻,求出其調值,然后根據不同情況下調值的變化得到連續(xù)變調規(guī)律,再將其應用于語音合成系統(tǒng)中進行韻律控制。這是在定性基礎上進行的研究,存在很多不足之處。一方面,由于語音數據的變化隨機性很大,對少量的語音數據進行處理不能得到較為全面的變調規(guī)律,而大量語音數據如果完全用人工來處理,工作量會很大;另一方面,用人工進行語音數據處理,往往會由于一些先入為主的概念而很難得到較為完全的規(guī)律。

      基于語音合成中的基音同步疊加技術,可利用數據挖掘技術進行韻律變化規(guī)律的學習,采用數據挖掘技術中的神經網絡方法、數據項聚類以及粗糙集理論的有機結合進行綜合評判,利用神經網絡具有的自組織和自學習特性,將經過聚類處理的語音基頻數據和時長數據分別轉化成神經網絡的輸入和輸出節(jié)點,經過網絡學習來獲得一些典型的基頻曲線和時長映射關系。由于神經網絡自身理論還存在不夠完善的地方,因此,可以輔助以粗糙集理論進行適當的修正,以獲得期望的模式。在這些映射的基礎上,可通過簡單的變換獲得典型模式,利用這些典型模式,就可在定量的基礎上,對基頻的變化規(guī)律從較高層次進行韻律規(guī)則的研究。

    3.基于數據驅動方式的重音確定

      在連續(xù)語流中,各音節(jié)的響亮程度并不完全相同,有的音節(jié)聽起來比其他音節(jié)重,簡單地說,這就是重音。以詞為考查對象,音位學可劃分為正常重音、對比重音和弱重音。人們在口語交流中,常把在表情傳意方面較重要的詞讀得重些,把其余的詞讀得輕些。語句重音是指由于句子語法結構、邏輯語義或心理情感表達的需要而產生的句子中的重讀音,它不同于詞重音,因為詞重音只出現在詞結構中。語句重音一般分為三種:語音重音、邏輯重音、心理重音。

      通常研究者認為,重音的聲學征兆主要表現在時長、音高與音強三個方面,也往往是三者的結合。不同語言的重音特點不一樣,對于漢語,老一輩語音學家趙元任先生認為,“漢語重音首先是延長持續(xù)時間和擴大調域,其次才是增加強度。”現代語音學家也認為,漢語重音主要表現在時長的增加(或者說是基音周期數的增加);其次是調域的擴大和音高的提升,調型完整地展開;與發(fā)音強度的關系并不是主要的。

      以上都是定性的分析,從定性到定量的轉換是采用基于數據驅動的方式進行,從大量語料數據本身的特點來分析重音,并且依據重音的特點輔助以韻律學規(guī)律,合成更自然的語音信號。

      數據挖掘是一種在大量數據庫中發(fā)現隱藏新知識的計算技術方法。數據挖掘提取的是定性的模型,并且很容易被轉化為邏輯規(guī)則或用可視化的形式表達。因此,將數據挖掘與人機交互接口緊密聯系在一起將對計算機語音信號處理的研究工作產生巨大的推動力,為語音信號處理提供了一條嶄新的研究途徑。可以預見,采用數據挖掘方法可以較好地解決目前語音信號處理中部分難點問題,從而進一步提高語音合成和語音識別技術的實用化程度。

    《計算機世界》 2001/06/04

    相關閱讀:

    分享到: 收藏

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 寻甸| 电白县| 比如县| 屏山县| 古交市| 金阳县| 广宗县| 陵水| 嘉鱼县| 隆化县| 保德县| 靖宇县| 静安区| 化州市| 江北区| 百色市| 科技| 宝坻区| 庄浪县| 珠海市| 武平县| 荣成市| 梅河口市| 兰坪| 德清县| 巴里| 石狮市| 乌兰浩特市| 开鲁县| 区。| 毕节市| 永仁县| 兰坪| 松溪县| 满洲里市| 玛纳斯县| 岐山县| 翼城县| 扎鲁特旗| 北京市| 合山市| http://444 http://444 http://444 http://444 http://444 http://444