首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品

聽話要聽音—情感語音處理技術

中科院自動化所 陶建華 2005/02/04

  同樣一句話,往往會由于說話人的情感不同,其意思和給聽者的印象就會不同,所謂“聽話聽音”就是這個道理。傳統(tǒng)的語音處理系統(tǒng)多著眼于語音詞匯傳達的準確性,而忽略了包含在語音信號中的情感因素。

  傳統(tǒng)的語音處理系統(tǒng)只是反映了信息的一個方面,而忽略了與知識世界相對應且具有同等重要地位的感性科學世界,這其實也是信息處理的一個重要組成部分。近幾年來,語音識別與合成技術在語音分析、自然語言處理、信號處理、隨即過程處理等方法的推動下獲得了很大的發(fā)展。但從語音信號中提取情感特征,分析人的情感與語音信號的關聯(lián),只是國內外剛剛興起的研究課題。

  目前這一領域的研究主要還是集中在情感的聲學特征分析上,有關情感建模以及結合情景、語言特征建立完整的情感控制模型還少有涉及。

聲學特征判斷情感因素

  當說話人處于不同情感狀態(tài)時,會在語速上表現(xiàn)出一定的變化,在激動狀態(tài)時,語速較平常狀態(tài)快。因此可以利用判斷語音信號中的語速和發(fā)話持續(xù)時間等參數(shù)來判別情感中激動成分的程度。同語音信號中的時間特征相類似,信號的振幅特征和各種情感信息也具有較強的相關性。

  由于人對語音的感知非常多樣化,全面考慮情感的聲學特征是一個非常困難的工作,考慮到計算機的處理能力,只能通過部分參數(shù)從一定程度上對情感語音的聲學特性進行概括。一般情況下,語音情感相關性的表示形式可以通過說話人模型或者聲學模型來實現(xiàn)。由于漢語的韻律多以音節(jié)為處理單位,在這種有調音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,為了便于在漢語中處理,通常將情感語音的聲學特征直接分為三類:韻律類、音質類和清晰度類。

韻律類

  韻律類主要用來表征不同情感狀態(tài)下語氣的變化,它包括如下韻律參數(shù)描述。

  平均基頻:整個語句的基頻(F0)平均值,根據(jù)語音信號分析聲帶的共振頻率。

  基頻范圍:整個語句的基頻范圍,基頻范圍在很大程度上能夠反映人的情緒狀態(tài)。

  重音的突變特性:在情感語句中,重音多體現(xiàn)情感焦點特性,經常由情感關鍵詞承載。

  停頓的連貫性:用以表示語句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時,有時會出現(xiàn)由于概念表述不清而導致的語氣斷續(xù)特征。

  語速:用以表征語氣的緩急程度,人在焦急、恐懼時多出現(xiàn)語速加快的現(xiàn)象,有時歡快的語氣也能帶來類似效果。

  重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。

  音強:實驗證明在情感語音中,音強的變化往往表現(xiàn)出與基頻范圍變化的一致性。但是相對基頻變化來說,大部分音強變化并不明顯。

  音節(jié)基頻高線傾斜程度:語句中音節(jié)基頻高點連線的變化情況(上升、水平和下降)。

  音節(jié)基頻低線傾斜程度:語句中音節(jié)基頻低點連線的變化情況(上升、水平和下降)。

  基頻抖動:焦慮語音會出現(xiàn)“F0抖動”現(xiàn)象,這一現(xiàn)象描述了基頻從一個區(qū)域到另一個區(qū)域之間快速和反復的變化。在此情況下,有時音節(jié)會失去其固有調型。

音質類

  音質類用來表征不同情感狀態(tài)下語音音質發(fā)生的變化,它通過如下參數(shù)描述。

  呼吸聲:在語音流中,出現(xiàn)呼吸氣等聲音。當一個人處于緊張或歡快狀態(tài)時會出現(xiàn)的快速呼吸停頓,或一個人由于恐懼而牙齒緊壓會產生的回旋氣流噪聲。

  明亮度:低頻能量和高頻能量的比值,用以反映語音的清亮特性。

  喉化度:發(fā)音時聲門出現(xiàn)不連續(xù)的脈沖震動特性,經常出現(xiàn)在極度恐懼的情感狀態(tài)中。

清晰度類

  情感信息與人的聲道同樣具有一定的關聯(lián)。清晰度可分為正常、焦急、模糊和準確。清晰度描述了元音質量的變化和清輔音是否變化為相應的濁輔音。比如:人在厭惡時,有時說話“嘟嘟囔囔”,表達不清。

  情感表現(xiàn)的多樣性和復雜性導致情感聲學參數(shù)的數(shù)值分布多呈現(xiàn)較大的離散特性,表1針對五種基本情感狀態(tài)列出了幾種基本聲學參數(shù)較為平均的體現(xiàn)。


從語音中抽取個性特征

  通常情況下,語音理解是從一段語音中分析出文本,讓系統(tǒng)“聽懂”語音的內容。它的研究重點是分析語音中的共性特征。情感語音的研究則是從語音中抽取個性特征,并加以參數(shù)化描述。充分的利用情感韻律特征,從中獲取說話人意向及部分語義信息,可以從一定程度上提高理解的準確率。

  由于一般情況下人們很少進行典型情緒的發(fā)音,說話的情感狀態(tài)通常分布在一個連續(xù)的狀態(tài)空間里,在Marc Schrder(2001)等人的工作中,采用了三個參數(shù)來對其進行描述,分別是激活度(Activation)、評價(Evaluation)和強度(Power),不同的情感可以對應到這三個參數(shù)的值上,下表2為Marc Schrder給出的一個經驗對照表。


  對于一個給定的情感三維坐標,其相應的聲學特征具有一定的關聯(lián)特性。這種三維坐標的形式,提供了一種情感語音的特征相似性比較的途徑。例如,生氣和恐懼相比較可發(fā)現(xiàn)具有相似的聲學特征和情感特征。聲學上說它們在平均傾斜度、傾斜范圍、語速和清晰度方面是相似的,不同點是害怕的傾斜度改變比中性要緩、語速要快、強度正常、聲音不規(guī)則。在三維情感空間中這兩個情緒在Activation和Evaluation很近,在Power則有所不同。因而使得情感的聲學特征具有一定的可預測性。

  當然該三維坐標并不能解決所有的情感特征,例如擔心、熱愛等情感則不能只通過三維空間的描述來說明,同時由于情感受不同的人感知,反映在語音的聲學特征上亦會具有不同的表現(xiàn)形式,因此還需要在情感與認知模型上進行更深入的研究。

  盡管如此,仍然有一些情感信息處理方面的研究成果。這些研究的主要目的是把情感信息的研究從心理學角度向心理學、信息學這一交叉學科領域過渡。從這幾年的成果看,有關情感信息的建模以及工學處理方法等方面的研究成果非常少,較多的是對情感信息韻律特征表現(xiàn)的觀察和分析。這些特征的分析將從另一個側面有助于語音的理解和產生更為生動的語音表達。

小資料

  情感計算的主要應用形式

  在人機交互方面的應用

  情感計算更多地應用于人機交互方面,它將能有效地改變過去計算機呆板的交互服務,提高人機交互的親切性和準確性。一個擁有情感能力的計算機能夠對人類情感進行獲取、分類、識別和響應,進而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界,這正是計算技術向人類社會全面滲透的重要手段。例如采用此類技術探測司機精力是否集中,并做出相對反應;還可以在汽車中用電腦測量駕車者感受到的壓力水平,以幫助解決駕駛者的所謂“道路狂暴癥”問題。

  同時,情感計算及其相關研究還能給電子商務帶來實惠。有研究顯示,不同圖像可以喚起人類不同的情感,例如蛇、蜘蛛、槍的圖片能引起恐懼,而大量美元現(xiàn)金和金塊的圖片則可以使人產生強烈的積極反應,如果購物網(wǎng)站和股票交易網(wǎng)站在設計時考慮到這些因素,則能對客流量的上升產生積極影響。

  在信息家電和智能儀器中增加自動感知人們情緒狀態(tài)的功能,可以提供更好的服務;在信息檢索應用中,通過情感分析的概念解析功能,則可提高智能信息檢索的精度和效率;在遠程教育平臺中,情感計算技術的應用能提升教學效果;利用多模式的情感交互技術,還可以構筑更貼近人們生活的智能空間或虛擬場景。此外,情感計算還能應用在機器人、智能玩具、游戲等相關產業(yè)中,以構筑更加擬人化的風格和更加逼真的場景。

  在心理學方面的應用

  從認知科學的角度看,情感反映了人的心理狀態(tài),是人類思維活動最生動的體現(xiàn),所以對人類情感機理的研究與探索一直是科學研究的重要方向。情感計算理論通過計算機的分析和處理手段,將對情感的研究從感性認知上升為可計算模型,對在認知科學上探索大腦對信息的分析和處理機理、進一步加深對大腦中情感概念的解析和理解將具有重要的科學意義。

  在醫(yī)學上的應用

  現(xiàn)代醫(yī)學研究表明,健康應該包含更多情緒方面的內容,可是現(xiàn)代人中患有抑郁癥的比例卻在逐年上升,所以醫(yī)學界希望能夠更早地向好的方面誘導,從而有效地幫助人們對不良情緒進行排解。

  情感雖然是一種內部的主觀體驗,但總是伴隨著某種外部表現(xiàn)。面部表情不僅是人們常用的較自然的情感表現(xiàn)方式,也是人們鑒別情感的主要標志。另外在醫(yī)學研究中也已使用過很多生理指標,如皮質醇水平、心率、血壓、呼吸、皮膚電活動、掌汗、瞳孔直徑、事件相關電位、腦電EEG等,都是對人類情緒狀態(tài)的客觀度量。

計算機世界網(wǎng)(www.ccw.com.cn)


相關鏈接:
"得意"口語對話系統(tǒng)開發(fā)包與"得意"智能互動信息服務 2004-11-25
"得意"聲紋識別技術常見問題解答 2004-11-25
語音技術應用的現(xiàn)狀和未來 2004-09-30
“得意”聲紋加密鑰匙常見問題解答 2004-08-31
基于Web的語音平臺 2004-08-27

分類信息:     文摘   技術_語音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 稻城县| 正镶白旗| 呼和浩特市| 武定县| 浦北县| 普格县| 鱼台县| 江山市| 靖安县| 泸定县| 乌恰县| 陈巴尔虎旗| 南投市| 阿城市| 柳江县| 轮台县| 诸暨市| 马山县| 颍上县| 临朐县| 铁力市| 托克托县| 墨竹工卡县| 崇文区| 英吉沙县| 常州市| 浦东新区| 克什克腾旗| 巴彦淖尔市| 左贡县| 咸丰县| 柳林县| 奎屯市| 竹溪县| 车致| 涪陵区| 萝北县| 平舆县| 车致| 沂水县| 华蓥市| http://444 http://444 http://444 http://444 http://444 http://444