自動(dòng)語(yǔ)音識別(ASR)無(wú)處不在,我們經(jīng)常通過(guò)使用ASR技術(shù)的語(yǔ)音用戶(hù)界面與虛擬助理、電子設備和軟件應用程序進(jìn)行交互。但更多時(shí)候,盡管ASR有了顯著(zhù)的改進(jìn),但當我們與這些智能設備和應用程序交互時(shí),仍然感覺(jué)缺少了一個(gè)要素。ASR介導的互動(dòng)和我們正常的人與人之間的交流有很大區別,因為當我們與其他人互動(dòng)時(shí),我們會(huì )考慮他們的情緒狀態(tài)和表達,并相應地調整我們的反應、理解和行為。
人類(lèi)的交流是豐富而復雜的。你可能聽(tīng)說(shuō)過(guò)經(jīng)常引用的7-38-55通訊規則。這個(gè)在20世紀60年代形成的公理聲稱(chēng),傳達我們交流的意圖和意義的重擔不是語(yǔ)言而是非語(yǔ)言線(xiàn)索。根據這一點(diǎn),實(shí)際說(shuō)出的單詞只占詞義的7%;語(yǔ)音表達和語(yǔ)調占38%;其余的55%的詞義是通過(guò)肢體語(yǔ)言傳達的。
我要指出的是,這條規則在所分配的百分比方面還沒(méi)有經(jīng)受住科學(xué)的審查,但它仍然很流行,并且包含了一個(gè)真理的核心,即從言語(yǔ)模式中可以收集到重要的信息信號。不僅是“什么”而且“如何”也很重要。當同時(shí)考慮信息的語(yǔ)義和情感狀態(tài)時(shí),ASR技術(shù)的效果更好。
還要注意,我們這里的重點(diǎn)是語(yǔ)音情感識別,而不是通過(guò)使用情感標記注入語(yǔ)調和情感,使機器生成的語(yǔ)音聽(tīng)起來(lái)更像人。自動(dòng)生成接近人類(lèi)語(yǔ)音的真實(shí)語(yǔ)音是一個(gè)受歡迎但不同的話(huà)題。如果當前的許多ASR應用程序看起來(lái)過(guò)于機械化或不切實(shí)際,那可能是因為它們對我們所說(shuō)的話(huà)的解釋過(guò)于字面化,而對潛在的情感沒(méi)有感覺(jué)。
語(yǔ)音情感識別有著(zhù)廣泛的應用領(lǐng)域,如下所述:
客戶(hù)支持和員工健康:分析語(yǔ)音通話(huà)以確定客戶(hù)的情緒狀態(tài)可以更好地處理客戶(hù)服務(wù)電話(huà)。例如,一個(gè)憤怒的客戶(hù)可以被引導到一個(gè)受過(guò)訓練的支持座席那里,以處理這種情況。一旦確定了情緒,軟件就可以進(jìn)行編程,為心煩意亂的客戶(hù)定制一個(gè)對話(huà)腳本。
語(yǔ)音分析的座席談話(huà)可以提供線(xiàn)索,他們的壓力水平和情緒健康。對這些數據的時(shí)間序列分析可以識別客戶(hù)行為模式、員工和團隊激勵水平的變化和趨勢,以及其他可操作的見(jiàn)解。這些見(jiàn)解有助于提高員工敬業(yè)度和客戶(hù)滿(mǎn)意度。
冠狀病毒大流行導致了前所未有的遠程工作安排,這些安排會(huì )影響員工士氣。基于SER的分析應用程序可以幫助組織評估員工如何應對這些新工作條件可能產(chǎn)生的孤立感。
醫療保健和輔助機器人:在療養院和護理中心,為病人和老年人提供的伴侶機器人引起了很大的興趣。這些機器人可以了解他們所幫助的用戶(hù)的不同情緒狀態(tài),這將大大提高他們的接受度和采納率。另一個(gè)用例涉及自閉癥患者,他們很難識別與他們互動(dòng)的人所表達的情感。SER應用程序可以提供單詞背后的情感線(xiàn)索。
E-learning應用程序:在線(xiàn)學(xué)習期間,學(xué)生可以體驗各種情緒狀態(tài),包括焦慮、困惑和無(wú)聊。關(guān)于學(xué)習者當前狀態(tài)的輸入,例如他們的興趣水平,可以用來(lái)改變教學(xué)節奏,或者可以促進(jìn)不同的教學(xué)風(fēng)格;所有這些都有助于提高學(xué)生的參與度并導致更好的學(xué)習結果。
體育和電子游戲:SER可以通過(guò)分析評論和生成精彩片段,幫助識別體育游戲或比賽的關(guān)鍵時(shí)刻和激動(dòng)人心的部分。用戶(hù)通過(guò)佩戴數字化身來(lái)進(jìn)行視頻游戲,這些化身的表情和動(dòng)作可以根據用戶(hù)表達的情感進(jìn)行修改,從而使游戲體驗更具趣味性和吸引力。
這并不是一份詳盡的清單。事實(shí)上,SER的用例可以在涉及語(yǔ)音的各種其他人機交互場(chǎng)景中找到。SER的基礎是能夠正確地推導出潛在的情緒,但這究竟是如何工作的?SER如何補充書(shū)面語(yǔ)篇的情感分析?挑戰和限制是什么?
作為一個(gè)長(cháng)達幾十年的研究領(lǐng)域,SER有許多傳統的技術(shù),但我們也看到了新的深度學(xué)習方法的應用。人工智能和深度學(xué)習方法如何幫助我們提高SER?我們將在《語(yǔ)音技術(shù)》(Speech Technology)的春季版上探討這些話(huà)題。
聲明:版權所有 非合作媒體謝絕轉載
作者:Kashyap Kompella
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Columns/Interact/Speech-Emotion-Recognition-The-Next-Step-in-the-User-Experience-145605.aspx