傳統(tǒng)的語音處理系統(tǒng)只是反映了信息的一個方面,而忽略了與知識世界相對應(yīng)且具有同等重要地位的感性科學世界,這其實也是信息處理的一個重要組成部分。近幾年來,語音識別與合成技術(shù)在語音分析、自然語言處理、信號處理、隨即過程處理等方法的推動下獲得了很大的發(fā)展。但從語音信號中提取情感特征,分析人的情感與語音信號的關(guān)聯(lián),只是國內(nèi)外剛剛興起的研究課題。
目前這一領(lǐng)域的研究主要還是集中在情感的聲學特征分析上,有關(guān)情感建模以及結(jié)合情景、語言特征建立完整的情感控制模型還少有涉及。
聲學特征判斷情感因素
當說話人處于不同情感狀態(tài)時,會在語速上表現(xiàn)出一定的變化,在激動狀態(tài)時,語速較平常狀態(tài)快。因此可以利用判斷語音信號中的語速和發(fā)話持續(xù)時間等參數(shù)來判別情感中激動成分的程度。同語音信號中的時間特征相類似,信號的振幅特征和各種情感信息也具有較強的相關(guān)性。
由于人對語音的感知非常多樣化,全面考慮情感的聲學特征是一個非常困難的工作,考慮到計算機的處理能力,只能通過部分參數(shù)從一定程度上對情感語音的聲學特性進行概括。一般情況下,語音情感相關(guān)性的表示形式可以通過說話人模型或者聲學模型來實現(xiàn)。由于漢語的韻律多以音節(jié)為處理單位,在這種有調(diào)音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,為了便于在漢語中處理,通常將情感語音的聲學特征直接分為三類:韻律類、音質(zhì)類和清晰度類。
韻律類
韻律類主要用來表征不同情感狀態(tài)下語氣的變化,它包括如下韻律參數(shù)描述。
平均基頻:整個語句的基頻(F0)平均值,根據(jù)語音信號分析聲帶的共振頻率。
基頻范圍:整個語句的基頻范圍,基頻范圍在很大程度上能夠反映人的情緒狀態(tài)。
重音的突變特性:在情感語句中,重音多體現(xiàn)情感焦點特性,經(jīng)常由情感關(guān)鍵詞承載。
停頓的連貫性:用以表示語句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時,有時會出現(xiàn)由于概念表述不清而導致的語氣斷續(xù)特征。
語速:用以表征語氣的緩急程度,人在焦急、恐懼時多出現(xiàn)語速加快的現(xiàn)象,有時歡快的語氣也能帶來類似效果。
重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。
音強:實驗證明在情感語音中,音強的變化往往表現(xiàn)出與基頻范圍變化的一致性。但是相對基頻變化來說,大部分音強變化并不明顯。
音節(jié)基頻高線傾斜程度:語句中音節(jié)基頻高點連線的變化情況(上升、水平和下降)。
音節(jié)基頻低線傾斜程度:語句中音節(jié)基頻低點連線的變化情況(上升、水平和下降)。
基頻抖動:焦慮語音會出現(xiàn)“F0抖動”現(xiàn)象,這一現(xiàn)象描述了基頻從一個區(qū)域到另一個區(qū)域之間快速和反復(fù)的變化。在此情況下,有時音節(jié)會失去其固有調(diào)型。
音質(zhì)類
音質(zhì)類用來表征不同情感狀態(tài)下語音音質(zhì)發(fā)生的變化,它通過如下參數(shù)描述。
呼吸聲:在語音流中,出現(xiàn)呼吸氣等聲音。當一個人處于緊張或歡快狀態(tài)時會出現(xiàn)的快速呼吸停頓,或一個人由于恐懼而牙齒緊壓會產(chǎn)生的回旋氣流噪聲。
明亮度:低頻能量和高頻能量的比值,用以反映語音的清亮特性。
喉化度:發(fā)音時聲門出現(xiàn)不連續(xù)的脈沖震動特性,經(jīng)常出現(xiàn)在極度恐懼的情感狀態(tài)中。
清晰度類
情感信息與人的聲道同樣具有一定的關(guān)聯(lián)。清晰度可分為正常、焦急、模糊和準確。清晰度描述了元音質(zhì)量的變化和清輔音是否變化為相應(yīng)的濁輔音。比如:人在厭惡時,有時說話“嘟嘟囔囔”,表達不清。
情感表現(xiàn)的多樣性和復(fù)雜性導致情感聲學參數(shù)的數(shù)值分布多呈現(xiàn)較大的離散特性,表1針對五種基本情感狀態(tài)列出了幾種基本聲學參數(shù)較為平均的體現(xiàn)。
通常情況下,語音理解是從一段語音中分析出文本,讓系統(tǒng)“聽懂”語音的內(nèi)容。它的研究重點是分析語音中的共性特征。情感語音的研究則是從語音中抽取個性特征,并加以參數(shù)化描述。充分的利用情感韻律特征,從中獲取說話人意向及部分語義信息,可以從一定程度上提高理解的準確率。
由于一般情況下人們很少進行典型情緒的發(fā)音,說話的情感狀態(tài)通常分布在一個連續(xù)的狀態(tài)空間里,在Marc Schrder(2001)等人的工作中,采用了三個參數(shù)來對其進行描述,分別是激活度(Activation)、評價(Evaluation)和強度(Power),不同的情感可以對應(yīng)到這三個參數(shù)的值上,下表2為Marc Schrder給出的一個經(jīng)驗對照表。
當然該三維坐標并不能解決所有的情感特征,例如擔心、熱愛等情感則不能只通過三維空間的描述來說明,同時由于情感受不同的人感知,反映在語音的聲學特征上亦會具有不同的表現(xiàn)形式,因此還需要在情感與認知模型上進行更深入的研究。
盡管如此,仍然有一些情感信息處理方面的研究成果。這些研究的主要目的是把情感信息的研究從心理學角度向心理學、信息學這一交叉學科領(lǐng)域過渡。從這幾年的成果看,有關(guān)情感信息的建模以及工學處理方法等方面的研究成果非常少,較多的是對情感信息韻律特征表現(xiàn)的觀察和分析。這些特征的分析將從另一個側(cè)面有助于語音的理解和產(chǎn)生更為生動的語音表達。
小資料
情感計算的主要應(yīng)用形式
在人機交互方面的應(yīng)用
情感計算更多地應(yīng)用于人機交互方面,它將能有效地改變過去計算機呆板的交互服務(wù),提高人機交互的親切性和準確性。一個擁有情感能力的計算機能夠?qū)θ祟惽楦羞M行獲取、分類、識別和響應(yīng),進而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界,這正是計算技術(shù)向人類社會全面滲透的重要手段。例如采用此類技術(shù)探測司機精力是否集中,并做出相對反應(yīng);還可以在汽車中用電腦測量駕車者感受到的壓力水平,以幫助解決駕駛者的所謂“道路狂暴癥”問題。
同時,情感計算及其相關(guān)研究還能給電子商務(wù)帶來實惠。有研究顯示,不同圖像可以喚起人類不同的情感,例如蛇、蜘蛛、槍的圖片能引起恐懼,而大量美元現(xiàn)金和金塊的圖片則可以使人產(chǎn)生強烈的積極反應(yīng),如果購物網(wǎng)站和股票交易網(wǎng)站在設(shè)計時考慮到這些因素,則能對客流量的上升產(chǎn)生積極影響。
在信息家電和智能儀器中增加自動感知人們情緒狀態(tài)的功能,可以提供更好的服務(wù);在信息檢索應(yīng)用中,通過情感分析的概念解析功能,則可提高智能信息檢索的精度和效率;在遠程教育平臺中,情感計算技術(shù)的應(yīng)用能提升教學效果;利用多模式的情感交互技術(shù),還可以構(gòu)筑更貼近人們生活的智能空間或虛擬場景。此外,情感計算還能應(yīng)用在機器人、智能玩具、游戲等相關(guān)產(chǎn)業(yè)中,以構(gòu)筑更加擬人化的風格和更加逼真的場景。
在心理學方面的應(yīng)用
從認知科學的角度看,情感反映了人的心理狀態(tài),是人類思維活動最生動的體現(xiàn),所以對人類情感機理的研究與探索一直是科學研究的重要方向。情感計算理論通過計算機的分析和處理手段,將對情感的研究從感性認知上升為可計算模型,對在認知科學上探索大腦對信息的分析和處理機理、進一步加深對大腦中情感概念的解析和理解將具有重要的科學意義。
在醫(yī)學上的應(yīng)用
現(xiàn)代醫(yī)學研究表明,健康應(yīng)該包含更多情緒方面的內(nèi)容,可是現(xiàn)代人中患有抑郁癥的比例卻在逐年上升,所以醫(yī)學界希望能夠更早地向好的方面誘導,從而有效地幫助人們對不良情緒進行排解。
情感雖然是一種內(nèi)部的主觀體驗,但總是伴隨著某種外部表現(xiàn)。面部表情不僅是人們常用的較自然的情感表現(xiàn)方式,也是人們鑒別情感的主要標志。另外在醫(yī)學研究中也已使用過很多生理指標,如皮質(zhì)醇水平、心率、血壓、呼吸、皮膚電活動、掌汗、瞳孔直徑、事件相關(guān)電位、腦電EEG等,都是對人類情緒狀態(tài)的客觀度量。