為了提高客戶(hù)滿(mǎn)意度、完善客戶(hù)服務(wù),同時(shí)對客服人員工作的考評,很多企業(yè)會(huì )對此采用質(zhì)檢的方式來(lái)保證其服務(wù)質(zhì)量。以服務(wù)行業(yè)為例,呼叫中心是一個(gè)促進(jìn)企業(yè)營(yíng)銷(xiāo)、市場(chǎng)開(kāi)拓并為客戶(hù)提供良好的交互服務(wù)系統,其位置相當重要。傳統的質(zhì)檢方法需要質(zhì)檢人員通過(guò)人工測聽(tīng)的方式進(jìn)行抽檢;人工抽檢方法工作量大且效率低,難以有效評價(jià)客服人員的服務(wù)質(zhì)量。
隨著(zhù)人工智能技術(shù)的發(fā)展,語(yǔ)音和自然語(yǔ)音處理技術(shù)不斷取得突破,采用智能化的方法對電話(huà)語(yǔ)音中的內容進(jìn)行深層次的分析,可以有效的節約人力成本并提高工作效率。語(yǔ)音質(zhì)檢方案主要涉及語(yǔ)音關(guān)鍵詞檢索、音頻對比、情感識別等核心技術(shù)。
一、語(yǔ)音關(guān)鍵詞檢索
(1)語(yǔ)音識別聲學(xué)模型
隨著(zhù)深度學(xué)習的興起,深層神經(jīng)網(wǎng)絡(luò )也應用到了語(yǔ)音識別中的聲學(xué)建模,通過(guò)深層神經(jīng)網(wǎng)絡(luò )模型替換GMM-HMM模型里的GMM模型,HMM模型中的狀態(tài)轉移矩陣部分不變。DNN通過(guò)在輸入端進(jìn)行擴幀,從而能夠利用上下文信息,同時(shí)這種模型具有較強的非線(xiàn)性建模能力,但DNN的擴幀是有限的,所以它能夠利用的上下文信息是有限的。針對這一問(wèn)題提出了基于RNN的聲學(xué)模型,RNN能夠更充分的利用歷史信息進(jìn)行聲學(xué)模型建模。但是在RNN訓練過(guò)程中會(huì )存在梯度消失和梯度膨脹的問(wèn)題,梯度膨脹可以在訓練過(guò)程中加一些約束條件解決,當梯度超過(guò)一定值以后設定一個(gè)固定值;針對梯度消失問(wèn)題,比較有效的解決方法是將里面的RNN單元變成長(cháng)短時(shí)記憶模型LSTM,這種模型的缺點(diǎn)是會(huì )增加計算復雜度,這也是在構建聲學(xué)模型時(shí)需要考慮的問(wèn)題。CNN是另一種比較主流的聲學(xué)模型,這種模型中包含的參數較少,谷歌、微軟、IBM等企業(yè)均嘗試使用非常深的CNN模型,其識別性能超過(guò)其它深層神經(jīng)網(wǎng)絡(luò )。
CTC是一個(gè)訓練準則,在傳統的基于深度學(xué)習的聲學(xué)模型輸出中,每個(gè)phone可能包含十幾楨甚至更多楨,因為它并不是一個(gè)尖峰,但是通過(guò)CTC訓練會(huì )把它變成一個(gè)尖峰;CTC可以將每一幀變成一個(gè)blank幀或者對應的建模單元(音素、音節等),而每個(gè)建模單元只需要對應幾幀就可以了。在解碼的時(shí)候可以降低對black楨的搜索寬度,這樣可以顯著(zhù)的增加解碼速度。減少解碼幀有兩種方法,一種是通過(guò)跳幀的方法,另一種在解碼過(guò)程中動(dòng)態(tài)調整beam值,特別是遇到空白楨的時(shí)候把并beam值減少。
(2)基于語(yǔ)音識別的關(guān)鍵詞檢索
基于語(yǔ)音識別的關(guān)鍵詞檢索是將語(yǔ)音識別的結果構建成一個(gè)索引網(wǎng)絡(luò ),然后把關(guān)鍵詞從索引網(wǎng)絡(luò )中找出來(lái)。從圖1中可以看到,首先將語(yǔ)音數據進(jìn)行識別處理,從里面提取索引構建索引網(wǎng)絡(luò ),進(jìn)行關(guān)鍵詞檢索的時(shí)候,我們會(huì )把關(guān)鍵詞表在網(wǎng)絡(luò )中進(jìn)行搜索,找到概率最高的,輸出其關(guān)鍵詞匹配結果。

圖1.基于語(yǔ)音識別的關(guān)鍵詞檢索
構建檢索網(wǎng)絡(luò )是語(yǔ)音關(guān)鍵詞檢索的重要環(huán)節。如圖2所示,在第一個(gè)時(shí)間段內(w1、w3、w6、w7),這句話(huà)被識別成了四個(gè)不同的詞,語(yǔ)音識別只能給出一條路徑,但在語(yǔ)音關(guān)鍵詞檢索網(wǎng)絡(luò )中可以從四個(gè)結果中進(jìn)行篩選。

圖2構建檢索網(wǎng)絡(luò )示意圖
確定關(guān)鍵詞檢索網(wǎng)絡(luò )后,接下來(lái)進(jìn)行的是關(guān)鍵詞檢索。關(guān)鍵詞檢索可以基于音節信息,首先將用戶(hù)設定的關(guān)鍵詞文本解析成音節序列,再從檢索網(wǎng)絡(luò )中找出匹配結果,相比直接對文本結果進(jìn)行檢索,這種方法的容錯性更強,而且關(guān)鍵詞檢索中的聲學(xué)模型可以是基于CTC的模型,因此,計算量更小,執行效率更高,更適用于語(yǔ)音質(zhì)檢這種海量數據檢索的應用場(chǎng)景。
二、音頻對比
音頻比對是指從音頻信號提取特征,通過(guò)特征進(jìn)行比對的方法進(jìn)行有害信息檢索的方法。該方法的核心在于提取的特征值需要滿(mǎn)足一定的要求,比如抗噪性、轉換不變性、魯棒性、快速性等特點(diǎn),主要是為了滿(mǎn)足同一音頻能夠在不同聲道下進(jìn)行準確檢索。傳統的MFCC、FBANK等聲學(xué)特征已經(jīng)不能滿(mǎn)足音頻比對任務(wù)的需求。圖3是一個(gè)基于頻譜最大值來(lái)建模的音頻比對方法。在完成最大值點(diǎn)完成建模后,需要進(jìn)行特征的構建。而特征構建是通過(guò)最大值點(diǎn)之間的距離來(lái)建模,例如兩個(gè)最大值點(diǎn)的距離、位置信息作為一個(gè)固定的特征來(lái)完成音頻特征信息的構建。有了上述音頻特征之后,就可以對兩個(gè)不同音頻進(jìn)行檢索,最大相似度的地方就是相似點(diǎn),這種技術(shù)最適用于文本內容無(wú)關(guān)的錄音片段的檢索。

圖3.基于頻譜最大值建模的音頻比對方法
三、情感識別
語(yǔ)音是人類(lèi)交際的最重要的工具之一。人們在進(jìn)行自然口語(yǔ)對話(huà)時(shí),不僅傳遞聲音,更重要的是傳遞說(shuō)話(huà)人的情感狀態(tài)、態(tài)度、意圖等。一般的情感語(yǔ)音識別系統框圖如圖4所示。根據情感模型的不同,情感語(yǔ)音識別主要分為離散情感識別和連續情感語(yǔ)音識別。

圖4.語(yǔ)音情感識別典型系統框圖
離散情感識別是一個(gè)典型的模式分類(lèi)問(wèn)題,各種傳統的分類(lèi)器均被廣泛應用于語(yǔ)音情感識別系統。例如隱馬爾科夫模型、高斯混合模型、支持向量機,人工神經(jīng)網(wǎng)絡(luò )等。維度情感識別一般被建模為回歸預測問(wèn)題。在機器學(xué)習算法層面,根據是否考慮序列上下文信息可將現有方法分為靜態(tài)機器學(xué)習算法和動(dòng)態(tài)機器學(xué)習算法。在靜態(tài)機器學(xué)習算法中,AdaBoost、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò )、支持向量回歸等廣泛應用于維度情感識別中序列單元的回歸問(wèn)題。鑒于維度情感的序列標注情況,序列上下文信息有助于提高情感識別性能,因而更多的工作集中于動(dòng)態(tài)機器學(xué)習算法。隨著(zhù)深度學(xué)習技術(shù)的發(fā)展,基于LSTM-RNN的系統便被更加廣泛的應用于維度情感識別領(lǐng)域。
情感識別解決方案通過(guò)分析不同情感狀態(tài)和語(yǔ)音聲學(xué)參數的關(guān)聯(lián)關(guān)系,抽取出魯棒聲學(xué)特征參數,綜合考慮不同人對同一段語(yǔ)音的情感感知結果,建立語(yǔ)音情感識別模型。為了提高語(yǔ)音情感識別的魯棒性,采用非線(xiàn)性建模方法建立情感語(yǔ)音分析模型,有效的解決了噪聲環(huán)境下情感語(yǔ)音分析問(wèn)題。針對情感識別中的時(shí)序建模問(wèn)題,采用一種基于特征層建模和決策層建模相結合的多尺度時(shí)序建模方法。在特征層實(shí)現短粒度的時(shí)序建模。在決策層實(shí)現更長(cháng)粒度的時(shí)序建模,并與特征層的時(shí)序建模實(shí)現相互補充。通過(guò)上述改進(jìn),有效的提高了語(yǔ)音情感識別的準確率,可以對通話(huà)者的情感狀態(tài)進(jìn)行動(dòng)態(tài)的捕獲和跟蹤。
極限元智能科技在智能語(yǔ)音、計算機視覺(jué)、自然語(yǔ)言處理、大數據分析等技術(shù)領(lǐng)域有多年技術(shù)積累,推出了一些系列云端和終端的跨平臺AI技術(shù)解決方案,產(chǎn)品和服務(wù)廣泛應用在教育、安全、交通、泛娛樂(lè )等多個(gè)行業(yè)。其中,成熟的音頻檢測技術(shù)落地場(chǎng)景更是涉及到反電信詐騙、公安技偵、互聯(lián)網(wǎng)音視頻有害信息檢測、呼叫中心錄音質(zhì)檢等多個(gè)方面。