為什么:隨著(zhù)移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)民已經(jīng)習慣于在網(wǎng)絡(luò )上表達意見(jiàn)和建議,比如電商網(wǎng)站上對商品的評價(jià)、社交媒體中對品牌、產(chǎn)品、政策的評價(jià)等等。這些評價(jià)中都蘊含著(zhù)巨大的商業(yè)價(jià)值。比如某品牌公司可以分析社交媒體上廣大民眾對該品牌的評價(jià),如果負面評價(jià)忽然增多,就可以快速采取相應的行動(dòng)。而這種正負面評價(jià)的分析就是情感分析的主要應用場(chǎng)景。
是什么:文本情感分析旨在分析出文本中針對某個(gè)對象的評價(jià)的正負面,比如“華為手機非常好”就是一個(gè)正面評價(jià)。情感分析主要有五個(gè)要素,(entity/實(shí)體,aspect/屬性,sentiment/觀(guān)點(diǎn),holder/觀(guān)點(diǎn)持有者,time/時(shí)間),其中實(shí)體和屬性合并稱(chēng)為評價(jià)對象(target)。情感分析的目標就是從非結構化的文本評論中抽取出這五個(gè)要素。

圖1情感分析五要素
舉例如下圖:

圖2情感分析五要素例子
上例中左側為非結構化的評論文本,右側為情感分析模型分析出的五個(gè)要素中的四個(gè)(不包括時(shí)間)。其中實(shí)體“華為手機”和屬性“拍照”合并起來(lái)可以作為評價(jià)對象。評價(jià)對象又可細分為評價(jià)對象詞抽取和評價(jià)對象類(lèi)別識別。如實(shí)體可以是實(shí)體詞和實(shí)體類(lèi)別,實(shí)體詞可以是“餐館”、“飯店”、“路邊攤”,而實(shí)體類(lèi)別是“飯店”;屬性可以是屬性詞和屬性類(lèi)別,如屬性詞可以是“水煮牛肉”、“三文魚(yú)”等,都對應了屬性類(lèi)別“食物”。實(shí)體類(lèi)別和屬性類(lèi)別相當于是對實(shí)體詞和屬性詞的一層抽象和歸類(lèi),是一對多的關(guān)系。詞和類(lèi)別分別對應了不同的任務(wù)。觀(guān)點(diǎn)的取值范圍一般是{正面,負面,中性}。類(lèi)似的,可以把觀(guān)點(diǎn)看做是對描述詞的抽象和歸類(lèi),如“好看”歸為“正面”。
任務(wù)類(lèi)型
當前研究中一般都不考慮情感分析五要素中的觀(guān)點(diǎn)持有者和時(shí)間,故后文中的討論都不考慮這兩個(gè)因素。根據對剩下三個(gè)要素的簡(jiǎn)化,當前情感分析的主要任務(wù)包括可按照圖3所示:詞級別情感分析、句子/文檔級情感分析、目標級情感分析。

圖3情感分析任務(wù)體系
其中詞級別和句子級別的分析對象分別是一個(gè)詞和整個(gè)句子的情感正負向,不區分句子中具體的目標,如實(shí)體或屬性,相當于忽略了五要素中的實(shí)體和屬性這兩個(gè)要素。詞級別情感分析,即情感詞典構建,研究的是如何給詞賦予情感信息,如“生日”對應的情感標簽是“正面”。句子級/篇章級情感分析研究的是如何給整個(gè)句子或篇章打情感標簽,如“今天天氣非常好”對應的情感標簽是“正面”。
而目標級情感分析是考慮了具體的目標,該目標可以是實(shí)體、某個(gè)實(shí)體的屬性或實(shí)體加屬性的組合。具體可分為三種:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中TG-ABSA的分析對象是給定某一個(gè)實(shí)體的情況下該實(shí)體給定屬性集合下的各個(gè)屬性的情感分析,如圖4中的實(shí)體是汽車(chē),屬性集合是動(dòng)力、外觀(guān)、空間和油耗。

圖4TG-ABSA例子
TN-ABSA的分析對象是文本中出現的實(shí)體的情感正負向,如圖5中,實(shí)體華為和XX的情感正負向分別為正面和負面。這種情況下沒(méi)有屬性的概念,只有實(shí)體。

圖5TN-ABSA例子
T-ABSA的分析對象是文本中出現的實(shí)體和屬性組合,如圖6所示,評價(jià)對象是實(shí)體+屬性的組合,如華為+拍照和XX+性?xún)r(jià)比。

圖6TG-ABSA例子
在清楚了目標級情感分析的分類(lèi)之后,每個(gè)類(lèi)別又都可以包含為兩大類(lèi)任務(wù):第一個(gè)是評價(jià)對象的識別,第二個(gè)是情感識別。評價(jià)對象識別包括評價(jià)對象詞抽取和評價(jià)對象詞分類(lèi),情感識別包括評價(jià)詞抽取和評價(jià)正負面分類(lèi)。具體例子如圖7所示。之所以要識別出對象詞和評價(jià)詞,是為了能夠基于屬性正負面過(guò)濾的時(shí)候可以高亮相應的評價(jià)文本片段。

圖7評價(jià)對象和評價(jià)詞和類(lèi)別識別例子
本文主要介紹詞級別情感分析、句子級情感分析和目標級情感分析中的T-ABSA的內容、方法和華為云語(yǔ)音語(yǔ)義團隊在該領(lǐng)域實(shí)踐中的一些成果。這里首先區分一些概念,本文所說(shuō)的情感,包括emotion和sentiment兩種。嚴格意義上來(lái)說(shuō)sentiment屬于emotion的一種,但是本文中不做區分。
詞級文本情感分析
任務(wù)介紹
詞級別的情感分析,即構建情感詞典(sentiment lexicon),旨在給詞賦予情感信息。這里首先要確定的是情感怎么表示,常見(jiàn)的表示方法有離散表示法和多維度表示法。離散表示法如情感分析領(lǐng)域常用的{正面,負面,中性}的表示方法,或者如表

圖8離散情感模型
用離散表示法表示的情感詞典如:
高興-正面,生日-正面,車(chē)禍-負面,災難-負面
多維度表示法也有多種,如Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。Valence和Evaluation表示好壞,arousal和activity表示人的喚起度,dominance和potency表示控制力。

圖9Valence-Arousal模型
用連續多維表示方法的情感詞典例子如:
VAD模型在[1,9]取值范圍下:車(chē)禍可表示為(2.05,6.26,3.76)
常見(jiàn)的方法
構建情感詞典常見(jiàn)的方法如圖10所示:

圖10常見(jiàn)情感詞典構建方法
人工標注優(yōu)點(diǎn)是準確,缺點(diǎn)是成本太高。自動(dòng)化方法中,都是先有人工標注一些種子詞,然后通過(guò)不同的方法把種子詞的標簽信息擴展到其他詞。基于點(diǎn)互信息的方法會(huì )基于大規模語(yǔ)料庫統計新詞和種子詞之間的統計信息,然后基于該信息對種子詞做加權求和得到信息的情感標簽。基于標簽傳播的方法會(huì )先構建詞和種子詞的一個(gè)圖,圖上的邊是基于詞和詞之間的統計信息獲得。然后用標簽傳播的算法獲得新詞的情感信息。基于回歸的方法先構建詞的特征向量表示,然后基于種子詞的標簽信息訓練一個(gè)回歸或分類(lèi)模型,得到該模型后再對新詞做預測,獲得新詞的情感標簽信息。
我們的進(jìn)展
我們團隊基于已經(jīng)標注的情感詞典,通過(guò)自動(dòng)化的方法,構建了當前業(yè)界最大規模的多維度情感詞典。

、圖11情感詞典構建流程
基于該方法,我們構建了業(yè)界最大規模的情感詞典庫,采用了Valence-Arousal的二維情感表示模型,情感值取值范圍為[-1,。1](-1表示不好(對應Valence維度)或無(wú)喚醒(對應Arousal維度),1表示好或高喚醒度),詞典包含六百萬(wàn)詞,例子如下:

圖12構建的情感詞典例子
句子文本情感分析
任務(wù)介紹
句子級和篇章級文本情感分析旨在整個(gè)句子或文章表達的情感傾向性,如下例子:
- 買(mǎi)沒(méi)幾天就降價(jià)一點(diǎn)都不開(kāi)心,閃存跑分就五百多點(diǎn)點(diǎn)---
- 外觀(guān)漂亮音質(zhì)不錯,現在電子產(chǎn)品基本上都是華為的了---
- 汽車(chē)不錯,省油,性?xún)r(jià)比高---
- 這個(gè)政策好啊,利國利民---
當前各友商推出的情感分析服務(wù)大部分都是這種整體文本的正負向預測。句子級情感分析服務(wù)在互聯(lián)網(wǎng)時(shí)代的電商評論、政策評價(jià)中有著(zhù)廣泛的應用價(jià)值。句子級情感分析是一個(gè)典型的文本分類(lèi)任務(wù),我們團隊也采用了當前比較有效的預訓練模型+微調的方案,如下圖所示:

圖13句子級情感分析方案
我們的進(jìn)展
當前我們已經(jīng)上線(xiàn)了電商、汽車(chē)和社交領(lǐng)域的情感分析模型,主要支持中文語(yǔ)言,標簽是正面和負面,帶有標簽置信度。如下圖的例子所示,分別是手機、汽車(chē)和社交領(lǐng)域。

圖14EI體驗空間電商領(lǐng)域、汽車(chē)領(lǐng)域和社交領(lǐng)域例子
目標級文本情感分析
任務(wù)介紹
前面介紹的句子級或篇章級的情感分析只關(guān)注整個(gè)文本的正負面,沒(méi)有區分文本中具體的評價(jià)對象。所以就處理不了如下的例子:

該例子對汽車(chē)的各個(gè)屬性的評價(jià)正負面是不一樣的,如對動(dòng)力和外觀(guān)來(lái)說(shuō)是正面,對空間和油耗來(lái)說(shuō)是負面,所以就不能簡(jiǎn)單的分析整體文本的正負面。本節介紹的目標情感分析中的TG-ABSA任務(wù),即固定實(shí)體下的給定屬性集合的評價(jià)正負面的預測。
我們的進(jìn)展
傳統的屬性級情感分析可以采用每個(gè)屬性訓練一個(gè)情感分類(lèi)模型。但是這種方法需要訓練多個(gè)分類(lèi)模型,成本比較高。我們提出了基于單模型多屬性標簽輸出的方法,即一個(gè)模型同時(shí)輸出N個(gè)屬性的情感標簽。圖15是當前在汽車(chē)領(lǐng)域結果,其中AttributeHitRate是屬性的命中率,即預測出的屬性占評論中實(shí)際出現的比率。HitAttributeAccuracy是命中的屬性標簽預測的準確率,即在所有命中的屬性中,標簽預測正確屬性的占比。因為我們的模型可以輸出每個(gè)屬性標簽的置信度,所以可以基于置信度過(guò)濾來(lái)調節模型最終的輸出標簽,圖中是個(gè)曲線(xiàn)。圖16是汽車(chē)領(lǐng)域屬性級情感分析的例子,可以同時(shí)預測出評論中出現的動(dòng)力和外觀(guān)兩個(gè)屬性對應的正負面。該功能支持汽車(chē)領(lǐng)域的八個(gè)屬性的評價(jià)預測,包括:內飾、動(dòng)力、外觀(guān)、性?xún)r(jià)比、操控、能耗、空間、舒適性。

圖15屬性級情感分析的效果


圖16汽車(chē)領(lǐng)域屬性情感分析例子
總結
本文介紹了情感分析的概念以及華為云在情感分析方面的實(shí)踐和進(jìn)展,部分服務(wù)已經(jīng)可以在我們的“EI體驗空間”小程序體驗,歡迎大家體驗并提出寶貴的意見(jiàn)。情感分析服務(wù)可以用于商品評價(jià)智能化分析、智能評分等,歡迎大家試用。

圖 17 EI體驗空間小程序
本文轉載自華為云博客
作者:HWCloudBU_NLP
作者博客主頁(yè)請點(diǎn)擊:https://bbs.huaweicloud.com/community/usersnew/id_1568600302962925