對于金融、保險、證券、市場(chǎng)調研、電商等擁有呼叫中心,并會(huì )產(chǎn)生大量語(yǔ)音數據的領(lǐng)域來(lái)說(shuō),建設聲紋庫本不是難事,但受歷史技術(shù)水平的限制,這些領(lǐng)域所存儲的歷史語(yǔ)音數據來(lái)源大多為單通道,客服與客戶(hù)的聲音共存在同一段音頻之中,難以分割,無(wú)法發(fā)揮數據價(jià)值。
最近,Kriston AI Lab發(fā)明了一種基于深度學(xué)習的單通道電話(huà)語(yǔ)音快速人聲分離技術(shù)(簡(jiǎn)稱(chēng)“單通道電話(huà)人聲分離”),破解了復雜場(chǎng)景下的人聲分離的難題,將銀行、保險、市場(chǎng)調研等行業(yè)的呼叫中心歷史語(yǔ)音數據變廢為寶,大大降低了聲紋數據庫的建設門(mén)檻。

一、無(wú)需人工干預的電話(huà)信道人聲分離
呼叫中心的電話(huà)語(yǔ)音,同時(shí)存在客服和客戶(hù)兩種不同的聲源,如何分辨出特定人物的聲音,這對于我們人類(lèi)來(lái)說(shuō)十分簡(jiǎn)單,但對于計算機來(lái)說(shuō),要把一個(gè)音頻分割成多個(gè)不同的語(yǔ)音來(lái)源,卻要面臨很多困難。
尤其是多人聲音重疊部分,分離效果差,且需要采集大量的相關(guān)音頻進(jìn)行單獨優(yōu)化,無(wú)疑是一種事倍功半的行為。
Kriston AI Lab提出的這種電話(huà)信道人聲分離技術(shù),以深度學(xué)習的方法實(shí)現數據模型訓練,無(wú)需人工干預,便可以將單通道電話(huà)信道音頻中兩個(gè)不同說(shuō)話(huà)人的音頻進(jìn)行拆分,分別保存,實(shí)現端到端的電話(huà)信道人聲分離。

二、電話(huà)信道人聲分離是如何“煉”成的?
人聲分離技術(shù)以深度學(xué)習技術(shù)為基礎,構建多層RNN循環(huán)神經(jīng)網(wǎng)絡(luò )。
1、利用現實(shí)生活中電話(huà)信道雙通道音頻作為訓練的數據集,將電話(huà)信道雙通道音頻合并為融合左通道客服音頻和右通道客戶(hù)音頻的單通道音頻作為整個(gè)模型訓練的輸入音頻,將雙通道音頻直接讀取的左通道音頻和右通道音頻作為網(wǎng)絡(luò )訓練的標簽音頻;
2、輸入單通道融合客服和客戶(hù)音頻到整個(gè)網(wǎng)絡(luò )當中,網(wǎng)絡(luò )的輸出結果為模型預測出來(lái)的拆分客服和客戶(hù)后的左通道音頻和右通道音頻;
3、將模型預測拆分的左通道音頻和右通道音頻,與原始雙通道音頻讀取的左通道音頻和右通道音頻進(jìn)行損失值的計算,訓練整個(gè)模型網(wǎng)絡(luò )的參數;
4、當模型訓練擬合之后,將模型取出,輸入現實(shí)生活中電話(huà)信道單通道音頻,模型輸出的音頻即為拆分后的左通道音頻(客戶(hù))和右通道客服(客服)。
三、電話(huà)信道人聲分離能發(fā)揮怎樣的作用?
電話(huà)信道人聲分離的最大作用,便是利用分割后的音頻進(jìn)行聲紋庫注冊,以實(shí)現反欺詐、電話(huà)營(yíng)銷(xiāo)等功能。
在銀行領(lǐng)域,客服會(huì )對逾期不還的訂單進(jìn)行電話(huà)提醒,從而產(chǎn)生大量的不還款語(yǔ)音數據,如果彼時(shí)該銀行使用的是單通道通話(huà),可以應用快商通電話(huà)信道人聲分離技術(shù)對失信者音頻進(jìn)行分割。分割后的音頻,便成為黑聲紋庫建設中歷史黑產(chǎn)數據的重要來(lái)源。銀行可進(jìn)一步以黑聲紋庫為基礎,準確識別黑名單用戶(hù),從源頭上降低壞賬率,完善金融反欺詐鏈條。
在營(yíng)銷(xiāo)方面,使用快商通電話(huà)信道人聲分離技術(shù),可以對客服外呼電話(huà)進(jìn)行客戶(hù)音頻分割,將客戶(hù)聲音與會(huì )員標簽、交易標簽、營(yíng)銷(xiāo)標簽等特征相匹配,統一由后臺系統進(jìn)行管理,實(shí)現高質(zhì)量的電話(huà)營(yíng)銷(xiāo)。
技術(shù)日趨成熟、政策大力支持,聲紋識別這種身份認證方式已逐漸被各領(lǐng)域所認可,但與此同時(shí),種種實(shí)際應用問(wèn)題也浮出水面,聲紋庫建設的數據來(lái)源便是使用者們需要跨過(guò)的首個(gè)難關(guān)。
Kriston AI Lab從客戶(hù)的需求出發(fā),推出能夠解決復雜場(chǎng)景下的人聲分離技術(shù),為銀行、保險、證券、市場(chǎng)調研、電商等行業(yè)呼叫中心提供了聲紋庫建設的可行性方案。未來(lái),Kriston AI Lab將持續發(fā)揮國際領(lǐng)先的算法優(yōu)勢,完善聲紋識別技術(shù)與產(chǎn)品的服務(wù)能力,推動(dòng)產(chǎn)業(yè)鏈上下游共同發(fā)展。
附:Kriston AI Lab由快商通于2012年創(chuàng )建,專(zhuān)注于自然語(yǔ)言處理、聲紋識別和大數據技術(shù)研發(fā),現由李海洲教授牽頭負責。Kriston AI Lab共申請400余項發(fā)明專(zhuān)利,為醫療、教育、金融、公安、智能家居等行業(yè)提供AI技術(shù)服務(wù)。
