智能語(yǔ)音客服行業(yè)作為人工智能技術(shù)較早實(shí)現商業(yè)化落地的領(lǐng)域,吸引了眾多企業(yè)爭相布局。目前,隨著(zhù)智能語(yǔ)音客服機器人大規模應用到實(shí)際生產(chǎn)環(huán)境中,語(yǔ)音通話(huà)數據生成快速,體量浩大,模態(tài)繁多,且由于A(yíng)SR識別魯棒性不夠,導致智能語(yǔ)音客服機器人表現還不盡如人意,分析主要原因,有以下幾方面:
(1)音頻采集環(huán)境復雜
音頻采集環(huán)境復雜,主要包括了,背景包含多種噪聲,性噪比SNR過(guò)低;音頻采集通道性能不合格,不能過(guò)濾掉不相干的信號,使得有效信息丟失或者不足。
(2)測試數據和訓練模型的數據不匹配
測試數據和訓練模型的數據不匹配,主要有性別,年齡,說(shuō)話(huà)人情緒,口音影響等因素為音頻的識別帶來(lái)了很大的困惑性,導致不能正確解碼。
(3)說(shuō)話(huà)人非標準表達
說(shuō)話(huà)人非標準表達,即自發(fā)性口語(yǔ)識別問(wèn)題,由于在實(shí)際生活中,說(shuō)話(huà)人在表達時(shí),會(huì )存在遲疑,重復,停頓等多種自發(fā)性口語(yǔ)現在,同時(shí),還可能在說(shuō)話(huà)時(shí)夾雜著(zhù)外語(yǔ)詞匯或者不常見(jiàn)的獨有詞匯。
ASR系統要應用于實(shí)際生產(chǎn)環(huán)境中,不僅要適應各類(lèi)緩變噪聲,而且必須在噪聲強度和種類(lèi)多變的情況下保持穩定性能;除聲學(xué)環(huán)境噪聲因素外,還需面對說(shuō)話(huà)人存在的口音和方言以及說(shuō)話(huà)人說(shuō)話(huà)方式的隨意性等因素。
2.模型
智能語(yǔ)音客服應用于通信系統,典型的會(huì )話(huà)信道大約只有40%的時(shí)間真正用于傳輸語(yǔ)音,其余的時(shí)間傳輸的都是靜默和背景噪聲。因此,需要在A(yíng)SR前端采用一個(gè)語(yǔ)音端點(diǎn)檢測器VAD來(lái)區分語(yǔ)音和靜默以及背景噪聲,通過(guò)提高ASR系統資源的利用率擴大ASR系統的并發(fā)識別容量。
同時(shí),由于處理的數據量越來(lái)越大,需要處理的規模越來(lái)越大,從工程實(shí)現以及部署成本而言,還需綜合考慮多路并行處理、實(shí)時(shí)性、易實(shí)現、資源占用情況以及大規模實(shí)現等諸多關(guān)鍵因素,設計實(shí)現大規模電話(huà)語(yǔ)音識別前端實(shí)時(shí)處理系統,完成對多路實(shí)際電話(huà)信道語(yǔ)音的實(shí)時(shí)處理,滿(mǎn)足在大規模電信網(wǎng)中的應用需求。
除實(shí)現大規模電話(huà)語(yǔ)音識別前端實(shí)時(shí)處理系統外,還需使系統具備一定的容錯性,確保在語(yǔ)音信號段判決錯誤的情況下通過(guò)聲學(xué)拒識決定是否接受ASR識別后文本,并且要通過(guò)句間停頓時(shí)間自適應調整清晰定義句子邊界,從而大大降低ASR的計算量和處理時(shí)間,提高系統的識別精度。
通過(guò)對大量電話(huà)系統語(yǔ)音進(jìn)行統計分析得出90%以上話(huà)路的語(yǔ)音信噪比大于10dB,個(gè)別話(huà)路信噪比相對較低,存在各式各樣的噪聲,甚至有些環(huán)境下信噪比為0dB左右。基于此,本方案分兩級對電話(huà)信道語(yǔ)音進(jìn)行檢測。首先在時(shí)域進(jìn)行一級處理,判決出疑似語(yǔ)音幀和非語(yǔ)音幀,將疑似語(yǔ)音的幀交由二級進(jìn)行頻域處理。因為二級判決是在一級判決的基礎上完成,只用對一級處理后疑似語(yǔ)音的幀進(jìn)行判決,對同一目標話(huà)路的檢測,相對只通過(guò)一級檢測所需的計算數據量明顯減少,為整個(gè)系統的其他處理模塊提供更多的可支配時(shí)間,提高系統實(shí)時(shí)性。
二級VAD檢測實(shí)現對電話(huà)語(yǔ)音流標識通話(huà)狀態(tài),分為會(huì )話(huà)靜默、會(huì )話(huà)開(kāi)始、會(huì )話(huà)進(jìn)行中以及會(huì )話(huà)結束4類(lèi)。并且,在二級VAD檢測實(shí)現時(shí)增加幀特征參數提取模塊、且在進(jìn)行特征計算時(shí)調用特征參數提取部分中間運算模塊(如FFT運算模塊),以此減少整個(gè)語(yǔ)音處理系統的資源消耗。
3.數據處理及分析
目前,正在收集標注這樣一個(gè)數據集。數據集分為干凈語(yǔ)料、聲學(xué)環(huán)境噪聲語(yǔ)料、口音方言語(yǔ)料以及雙聲道通話(huà)語(yǔ)料,其中干凈語(yǔ)料、聲學(xué)環(huán)境噪聲語(yǔ)料和口音方言語(yǔ)料需要通過(guò)人工標注收集。
(1)聲學(xué)拒識
首先,基于特征規則來(lái)輔助人工收集聲學(xué)拒識語(yǔ)料庫(干凈語(yǔ)料、聲學(xué)環(huán)境噪聲語(yǔ)料、口音方言語(yǔ)料),減少人工標注的工作量,并構造一個(gè)語(yǔ)音大數據信息處理工具,應對機器學(xué)習的不確定性,通過(guò)多試快速迭代出語(yǔ)音大數據信息處理工具,便于通過(guò)該工具方便地添加新數據、新特征,并快速訓練出一個(gè)新模型通過(guò)海量的拒識語(yǔ)料來(lái)進(jìn)行性能指標測試;然后,基于高斯混合模型GMM算法和支持向量機SVM算法等機器學(xué)習算法,并結合語(yǔ)音大數據信息處理工具提取出來(lái)的多種語(yǔ)音特征值,在語(yǔ)音識別前端,開(kāi)發(fā)實(shí)現一種復雜環(huán)境下準確性和穩定性較高的聲學(xué)拒識算法。
采取的方案以及方案要適用多類(lèi)條件識別情況,不僅適用于口音方言的語(yǔ)音識別問(wèn)題,還需適用于復雜背景噪聲環(huán)境識別問(wèn)題等。
(2)句間停頓時(shí)間自適應
基于電話(huà)庫中的自然口語(yǔ)對話(huà)中存在各種各種各樣的話(huà)輪轉換形式,并且有大量的疊接現象(搶話(huà))。通過(guò)基于雙聲道通話(huà)語(yǔ)料進(jìn)行智能客服交互場(chǎng)景下的疊接現象分析,研發(fā)一種可根據預估思考時(shí)間、話(huà)輪意圖、環(huán)境音感知的句間停頓自適應調整機制,實(shí)現智能語(yǔ)音客服通過(guò)和人類(lèi)一樣的非對稱(chēng)對話(huà)模式協(xié)調與人類(lèi)進(jìn)行全雙工語(yǔ)音交互,減少用戶(hù)感知的等待時(shí)間,及時(shí)響應話(huà)者意圖。