我們平時(shí)接觸到的和語(yǔ)音相關(guān)的應用,不管展現形式是什么,其核心是自動(dòng)語(yǔ)音識別(Automatic Speech Recognition,ASR),很多時(shí)候再加上和其他技術(shù)的整合應用。由于聲音文件無(wú)法直接處理,所以通過(guò)ASR將聲音轉成文字之后再處理,比如語(yǔ)音輸入法、自動(dòng)語(yǔ)音應答、語(yǔ)音搜索。通俗地說(shuō),就是將語(yǔ)音轉化成文字(STT),過(guò)程正好和語(yǔ)音合成(TTS)相反。接下來(lái)要討論的是呼叫中心在哪些場(chǎng)景中可以使用ASR?如何使用才能讓語(yǔ)音應用更加實(shí)際可用。
一、語(yǔ)音識別技術(shù)的發(fā)展
百度百科是這樣介紹的:“自動(dòng)語(yǔ)音識別技術(shù)(Automatic Speech Recognition)是一種將人的語(yǔ)音轉換為文本的技術(shù)。語(yǔ)音識別是一個(gè)多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數字信號處理理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連。”對于這樣一個(gè)非常專(zhuān)業(yè)的技術(shù)領(lǐng)域,要了解里面到底是什么技術(shù)、有哪些理論,對于普通人來(lái)說(shuō)是非常困難的。我只能?chē)L試另辟蹊徑,從另外一個(gè)角度——應用發(fā)展的角度,幫助大家來(lái)理解自動(dòng)語(yǔ)音識別技術(shù)。
語(yǔ)音識別技術(shù)的應用由來(lái)已久,但一直沒(méi)有出現很成熟的應用。準確地識別一通語(yǔ)音,是件非常困難的事。除了不同語(yǔ)種的差別,即使是漢語(yǔ),在加入方言、口音、同音字詞這些因素后也會(huì )產(chǎn)生海量的語(yǔ)音要識別。這也是為什么我在很久以前就有機會(huì )接觸到相關(guān)的產(chǎn)品,卻沒(méi)有產(chǎn)生實(shí)際的應用成果的原因。
直到最近幾年,自動(dòng)語(yǔ)音識別又開(kāi)始成為熱門(mén)的討論內容,一個(gè)又一個(gè)呼叫中心開(kāi)始立項,擼起袖子大干起來(lái)。推動(dòng)自動(dòng)語(yǔ)音識別應用發(fā)展的力量主要來(lái)自?xún)蓚(gè)方面,一方面是技術(shù)的進(jìn)步,另一方面是持久的訓練。
在更快的計算能力和更高級的算法出現以前,自動(dòng)語(yǔ)音識別技術(shù)的應用必然被限制在實(shí)驗室中或者某一狹窄的領(lǐng)域。幸運的是計算能力一直在提升,上世紀80年代又出現了人工神經(jīng)網(wǎng)絡(luò )算法,所以應對千變萬(wàn)化的語(yǔ)音才變得越來(lái)越容易,也因此而誕生了今天眾多的智能語(yǔ)音應用。
技術(shù)進(jìn)步是持久訓練得以產(chǎn)生效果的基礎,因為當計算機沒(méi)有能力處理海量數據的時(shí)候,再多的訓練產(chǎn)生再多的數據也是沒(méi)有用的。自動(dòng)語(yǔ)音識別技術(shù)應用發(fā)生質(zhì)的變化依賴(lài)于計算能力和算法這些基礎軟硬件的升級換代,這取決于基礎科學(xué)技術(shù)領(lǐng)域的進(jìn)步。你是不是聯(lián)想到《三體》小說(shuō)中關(guān)于基礎物理的觀(guān)點(diǎn)?基礎物理學(xué)的發(fā)展才能推動(dòng)科技發(fā)生質(zhì)的飛躍,基礎物理學(xué)沒(méi)有新的發(fā)現和理論,科學(xué)技術(shù)就會(huì )被限制在某個(gè)層次上。
當年在英語(yǔ)環(huán)境下應用不錯的產(chǎn)品,到了中文環(huán)境就水土不服,那就是因為訓練太少。相信很多人在了解某個(gè)語(yǔ)音產(chǎn)品時(shí),問(wèn)得最多的一個(gè)熱點(diǎn)問(wèn)題就是“方言識別效果怎么樣?”,以前得到的答案是“只支持普通話(huà)”,后來(lái)得到的答案是“可以支持帶口音的普通話(huà)”。其中的差別在哪?不是技術(shù)發(fā)生什么變化了,只是訓練的多了,見(jiàn)識的語(yǔ)音足夠多了。經(jīng)過(guò)訓練的自動(dòng)語(yǔ)音識別應用和10年前確實(shí)不可同日而語(yǔ)了,如果再拋開(kāi)那些表示語(yǔ)氣的字詞,對句子核心意思的翻譯準確率應該已經(jīng)很不錯了。
現在,自動(dòng)語(yǔ)音識別的相關(guān)應用要有好的表現,還得像過(guò)去的幾年一樣,要不斷去訓練訓練再訓練,不同地域口音方言的訓練、不同行業(yè)專(zhuān)業(yè)詞匯的訓練、不同聲音采樣率精度的訓練。自動(dòng)語(yǔ)音識別哪家投入的針對性訓練多、優(yōu)化多,哪家的應用表現就好。一句話(huà),聽(tīng)多識廣,總能優(yōu)化,也總要優(yōu)化。這就是我從應用發(fā)展的角度理解自動(dòng)語(yǔ)音識別技術(shù)應用。
與對待智能機器人的態(tài)度相類(lèi)似,更經(jīng)濟的做法是把自動(dòng)語(yǔ)音識別應用在有限的業(yè)務(wù)范圍內,焦點(diǎn)放在“要識別什么”,而不是“還有什么不能識別”。比如,手機上的用于識別操作指令,效果就不錯,因為要識別的內容被限定在某個(gè)特定的范圍內。分析一下你的業(yè)務(wù),其實(shí)要識別的有價(jià)值的內容應該也不會(huì )很多很多吧。而且,大多數的業(yè)務(wù),識別語(yǔ)音并不需要很高很高的準確率。這就為今天自動(dòng)語(yǔ)音識別技術(shù)實(shí)際應用到業(yè)務(wù)中創(chuàng )造了機會(huì )。字符識別(OCR)是一個(gè)很好的可以類(lèi)比的例子,從普遍性來(lái)說(shuō)OCR還是不成熟的,在中文領(lǐng)域甚至難于A(yíng)SR,但最近停車(chē)場(chǎng)應用在車(chē)牌識別方面卻非常普遍。
下面就具體說(shuō)說(shuō)呼叫中心一些和自動(dòng)語(yǔ)音識別相關(guān)的應用場(chǎng)景。
二、第一類(lèi)應用,簡(jiǎn)單指令或有限字詞的識別
IVR導航是一個(gè)最普遍的應用。第一次聽(tīng)到呼叫中心應用語(yǔ)音識別是在2005年去香港的一次交流活動(dòng)中,該應用可以根據客戶(hù)所說(shuō)的地址自動(dòng)播報電話(huà)號碼。當時(shí)沒(méi)有深入去了解,細節知之甚少。現在想來(lái),香港是個(gè)不大的地方,地址非常有限,人家用的還是英語(yǔ),能收到不錯的效果也是情理之中。如今我們用語(yǔ)音查詢(xún)保費、導航IVR菜單、語(yǔ)音查詢(xún)賬單,在內容上的難度要低于地址查詢(xún),因為地址涉及到的字詞更多。這類(lèi)應用還有一個(gè)特征,是單次互動(dòng),沒(méi)有復雜的交流過(guò)程,所以使用語(yǔ)音識別產(chǎn)品把語(yǔ)音轉成文字,再加一些簡(jiǎn)單的關(guān)鍵詞理解,可能就上線(xiàn)應用了,本身技術(shù)難度不大。
如果和其他系統融合再深入些,我覺(jué)得有兩個(gè)場(chǎng)景是可以考慮的。
其一,關(guān)鍵詞輔助指引。在人工和客戶(hù)通話(huà)過(guò)程中,系統自動(dòng)根據預設的關(guān)鍵字詞調取相關(guān)的知識庫內容展示在頁(yè)面上,大大提高了座席獲取知識庫知識的效率,尤其是在知識被碎片化成FAQ的情況下。如果有比較好的智能機器人支持,效果當然更加不凡。這類(lèi)應用逐漸開(kāi)展的做法,可以是設置需要識別的字詞過(guò)濾,這樣可以把少量已知或準確率高的知識和對話(huà)聯(lián)動(dòng)起來(lái),避免大量低準確率或無(wú)效的知識聯(lián)動(dòng)干擾。目前還鮮有看到這方面的應用,不過(guò)我個(gè)人很期待這樣的應用產(chǎn)生,因為實(shí)際上沒(méi)有什么技術(shù)難題了。
這種場(chǎng)景其實(shí)和早期語(yǔ)音識別廠(chǎng)商大力推薦的應用相同,只不過(guò)前面提到過(guò)那時(shí)的賣(mài)點(diǎn)是促進(jìn)銷(xiāo)售。那時(shí)的基本邏輯是,系統根據客戶(hù)所說(shuō)的內容自動(dòng)提示座席該客戶(hù)存在什么樣的銷(xiāo)售機會(huì ),而不依賴(lài)于“座席要足夠敏感”“座席不要忘了說(shuō)”。隨之帶來(lái)的是銷(xiāo)售業(yè)績(jì)上升,給企業(yè)帶來(lái)更好的收益。
也許是“畫(huà)”出來(lái)的收益太大了,所以廠(chǎng)商一般都獅子大開(kāi)口,把產(chǎn)品賣(mài)得很貴。也有可能是因為產(chǎn)品進(jìn)入市場(chǎng)急于收回研發(fā)成本而很貴,才“畫(huà)”了這樣的收益賣(mài)點(diǎn)。現在看起依然還是貴的,特別是那些按License賣(mài)產(chǎn)品,有些產(chǎn)品還有錄音系統問(wèn)題,也許要改造甚至更換錄音系統,投入不小。不過(guò),已經(jīng)有廠(chǎng)商愿意用利益分成的方法進(jìn)行合作,多少可以說(shuō)明廠(chǎng)商對這一應用還是有信心。其二,輔助錄入。客戶(hù)說(shuō)的話(huà),直接轉化成文字變成需要錄入的內容,節省一些錄入時(shí)間,或者避免座席錄入的隨意性和不可控性。這其實(shí)和語(yǔ)音輸入法是一樣的應用,只不過(guò)語(yǔ)音換成了對方客戶(hù)的聲音,或者客戶(hù)和座席兩個(gè)人的聲音對于這樣的擴展應用,個(gè)人認為沒(méi)有什么技術(shù)障礙,只要評估投入是否能接受,投入產(chǎn)出比是否達到了預期。應用實(shí)施剛開(kāi)始,效果一般不會(huì )好的,因為語(yǔ)音輸入法的應用對象和場(chǎng)景具有普遍性和廣泛性,在某一專(zhuān)業(yè)領(lǐng)域會(huì )水土不服,接下來(lái)要做的就是“專(zhuān)業(yè)訓練”。
三、第二類(lèi)應用,智能語(yǔ)音問(wèn)答
智能語(yǔ)音問(wèn)答是自動(dòng)語(yǔ)音識別最普遍的期望。注意,是期望,而不是應用,因為要實(shí)現機器與人交流,關(guān)鍵既有語(yǔ)音識別,也有智能問(wèn)答,是兩者的組合。智能問(wèn)答現在面臨的理解難題和題庫難題,決定了智能問(wèn)答的還不夠成熟,所以組合起來(lái)的應用更是困難重重。個(gè)人關(guān)于智能問(wèn)答更多的觀(guān)點(diǎn),可以參見(jiàn)筆者發(fā)一于《客戶(hù)世界》雜志的另一篇文章《如何使用智能機器人》。
智能語(yǔ)音問(wèn)答通常讓人聯(lián)想到呼入業(yè)務(wù),這確實(shí)很難。如果從“有限內容”去匹配業(yè)務(wù),就會(huì )發(fā)現在回訪(fǎng)(呼出)業(yè)務(wù)上應用智能語(yǔ)音問(wèn)答,也許是個(gè)不錯的選擇。由于回訪(fǎng)業(yè)務(wù)中內容是預先設定的,整個(gè)溝通過(guò)程中涉及的內容大多數情況下是有限的,相當于是限定了自動(dòng)語(yǔ)音識別的字詞范圍和智能機器人的問(wèn)答范圍,所以智能語(yǔ)音問(wèn)答應付這種場(chǎng)景會(huì )容易很多。更簡(jiǎn)單一些的回訪(fǎng),即使不用任何智能問(wèn)答的成分,僅去識別客戶(hù)回答中的某些關(guān)鍵詞,通常就能滿(mǎn)足業(yè)務(wù)需要了,這就變成了實(shí)質(zhì)上的“有限字詞的識別”。所以回訪(fǎng)是自動(dòng)語(yǔ)音識別在智能語(yǔ)音問(wèn)答類(lèi)應用中比較普遍的場(chǎng)景回訪(fǎng)是自動(dòng)語(yǔ)音識別在智能語(yǔ)音問(wèn)答類(lèi)應用中比較普遍的場(chǎng)景,已經(jīng)有不少公司實(shí)際開(kāi)展了這樣項目,比如我曾經(jīng)的東家平安保險、太平保險。
最近在很多公司力推的APP上,也開(kāi)始使用自動(dòng)語(yǔ)音識別,幫助客戶(hù)跳轉到相關(guān)的頁(yè)面,回答客戶(hù)的一些問(wèn)題。如何理解、回答,和電話(huà)渠道面臨的困難是一樣的,優(yōu)勢在于16K的采樣率有助于提高音轉字準確率。
四、第三類(lèi)應用,智能語(yǔ)音分析
對呼叫中心來(lái)說(shuō),除了大量的結構化數據之外,還有大量的錄音,大家都認為這既是一個(gè)需要監控的高風(fēng)險地帶,也是一個(gè)值得挖掘的寶藏。可是傳統的技術(shù),無(wú)法對錄音進(jìn)行分析,只能靠人工去聽(tīng),費時(shí)費力,分析的樣本不夠典型,質(zhì)檢覆蓋率非常低。自動(dòng)語(yǔ)音識別可以很好地解決這個(gè)問(wèn)題,當應用語(yǔ)音識別將語(yǔ)音轉成文字之后,就存在了全量檢查、分析的可能。
最常見(jiàn)的應用場(chǎng)景是語(yǔ)音質(zhì)檢,具體做法是使用語(yǔ)音識別產(chǎn)品,將錄音轉化為文字,再從這些文字中尋找需要檢查的內容。這是一種事后的應用,細化一下有三種用途:
第一種,提高問(wèn)題檢出率。通常用于合規檢查,該說(shuō)的話(huà)是不是說(shuō)了,不該說(shuō)的話(huà)是不是真的沒(méi)說(shuō)。最先應用的是在電話(huà)銷(xiāo)售、電話(huà)回訪(fǎng)業(yè)務(wù)中,這類(lèi)業(yè)務(wù)往往有很多監管的要求,以避免各種誤導,撇清各種責任。還有用于日常質(zhì)檢中檢查有沒(méi)有出現服務(wù)禁語(yǔ)惹了客戶(hù)。語(yǔ)音質(zhì)檢理論上可以做到檢查所有錄音,達到100%的覆蓋,這樣就不用擔心傳統方法未抽檢到的錄音中是否有座席心存僥幸。
第二種,輔助提升技能。質(zhì)檢的定位越來(lái)越被認可是幫助座席提升技能而不是扣分的,所以語(yǔ)音質(zhì)檢也要去找出錄音中座席不熟練、生疏的內容,幫助其提升技能。比如重復多次的話(huà)、停頓、不能適當主導通話(huà)內容,等等。
第三種,分析來(lái)電原因。對客戶(hù)關(guān)注熱點(diǎn)的變化,一般通過(guò)來(lái)電原因來(lái)分析。記錄每一通電話(huà)的來(lái)電原因,傳統的做法是話(huà)后小結,缺點(diǎn)是增加處理時(shí)間,而且不納入質(zhì)檢差錯的話(huà)后小結,通常不準。先進(jìn)一點(diǎn)的做法,根據操作頁(yè)面自動(dòng)記錄,只是有時(shí)候遇到同頁(yè)面不同原因時(shí),不容易細分,同時(shí)也受座席操作影響。這些做法還有一個(gè)共同缺點(diǎn)是,不管是服務(wù)小結還是頁(yè)面點(diǎn)擊,來(lái)電原因都是預設的,對歷史數據不能按新的來(lái)電原因統計。而通過(guò)語(yǔ)音來(lái)分析,準確性會(huì )提升,而且對歷史錄音也可以按照新的維度去統計分析。
上述三種用途,總的來(lái)說(shuō)個(gè)人覺(jué)得現在應用效果一般,原因在于音轉字之后的非結構化文本分析,并不是現在這些語(yǔ)音識別廠(chǎng)商的強項。所以,如果要把語(yǔ)音質(zhì)檢用好,出路可能是和大數據分析產(chǎn)品或專(zhuān)業(yè)的非結構化數據分析產(chǎn)品整合。在此之前,靠著(zhù)一些“包含/不包含”“且/或”表達式建立起來(lái)的模型,終究應用范圍和效果有限。
至于廠(chǎng)商在自動(dòng)語(yǔ)音識別產(chǎn)品推薦時(shí)提到的“情緒”“語(yǔ)音語(yǔ)調”,我覺(jué)得還是抱著(zhù)試試看的心態(tài)去對待吧。
五、第四類(lèi)應用,實(shí)時(shí)語(yǔ)音監控分析
因為實(shí)時(shí)語(yǔ)音監控分析和事后的質(zhì)檢分析是不一樣的,同時(shí)也是實(shí)時(shí)關(guān)鍵詞識別的升級版,所以單獨說(shuō)說(shuō)這個(gè)應用。這通常是國外供應商經(jīng)常描繪、卻很少見(jiàn)的應用場(chǎng)景,這是一種事中的應用。雙十一各大電商都有大大的電子顯示屏實(shí)時(shí)展現各種交易數據,看的一清二楚,人家那是結構化數據,好辦。想象一下,如果呼叫中心的監控大屏,也有一個(gè)大大的電子顯示屏,實(shí)時(shí)展現現在來(lái)電客戶(hù)所關(guān)注的問(wèn)題,能夠馬上發(fā)現一些熱點(diǎn)的異常變化,是不是很酷?這樣就不用在來(lái)電量發(fā)生突然變化的時(shí)候,去問(wèn)座席“有什么異常嗎/有什么來(lái)電特別多嗎”了(能問(wèn)出個(gè)結果來(lái)的幾率太低了);也不用等不怎么準不怎么細化的來(lái)電語(yǔ)音分析了;也不用等事后的語(yǔ)音分析了。反應,自然變快了。只是,這樣的應用所帶來(lái)的好處和所投入的成本相比,似乎還很不般配。反過(guò)來(lái)因為沒(méi)有太多的應用,沒(méi)經(jīng)過(guò)大量的實(shí)戰,投入使用的效果也不見(jiàn)得好。聲明一下,這里不是在黑廠(chǎng)商,而是描繪美好的未來(lái),只不過(guò)這樣的應用可能要再等一等。
六、對于自動(dòng)語(yǔ)音識別技術(shù)應用的一些建議
除了“有限范圍”這一原則外,以往的經(jīng)驗告訴我,在現有條件下有些辦法可以有助于提高自動(dòng)語(yǔ)音識別應用的效果。
其一,專(zhuān)業(yè)產(chǎn)品整合。除了自動(dòng)語(yǔ)音識別本身不斷訓練、優(yōu)化,提高音轉字準確率之外,還要和其他關(guān)鍵關(guān)聯(lián)方整合應用。智能語(yǔ)音對話(huà)的關(guān)鍵關(guān)聯(lián)方是智能機器人,那要么智能語(yǔ)音產(chǎn)品中包含了這樣的功能,要么和智能機器人組合起來(lái)使用。智能語(yǔ)音分析的關(guān)鍵關(guān)聯(lián)方是大數據分析產(chǎn)品,各種分析模型。很多時(shí)候,這些整合使用的關(guān)聯(lián)方好壞,甚至更為重要。
其二,搭建自有系統。有些廠(chǎng)商是提供云服務(wù)的方式進(jìn)行語(yǔ)音識別的,優(yōu)點(diǎn)是便宜,缺點(diǎn)是云端的模型優(yōu)化不能完全按照自有的業(yè)務(wù)特點(diǎn)進(jìn)行(私有云除外)。而自有系統,就可以按照一些專(zhuān)業(yè)、特有詞匯進(jìn)行語(yǔ)料庫的訓練優(yōu)化,現在識別準確率方面的利器就是訓練。如果有廠(chǎng)商駐場(chǎng)優(yōu)化,那是更好。
其三,預先篩選錄音。一套語(yǔ)音識別系統還是很貴的,尤其是一套自有的系統,越多的轉譯錄音時(shí)長(cháng),越多的服務(wù)器資源。而如果能通過(guò)結構化的數據篩選條件,先找出符合條件的錄音,再去轉譯的話(huà),錄音時(shí)長(cháng)就少多了,也不用擔心隨機采集到的樣本量太少。比如電銷(xiāo)只取銷(xiāo)售成功的錄音,因為銷(xiāo)售失敗的不是監管重點(diǎn);比如只取某某產(chǎn)品的客戶(hù)錄音轉譯,因為這個(gè)產(chǎn)品的咨詢(xún)、投訴是當前監控的重點(diǎn),舉個(gè)例子,因韓國部署薩德而使樂(lè )天瑪特超市受影響,那么這幾天樂(lè )天瑪特卡客戶(hù)的所有來(lái)電,就是監控重點(diǎn)。
其四,在壓縮前轉譯。通常為節省存儲,電話(huà)錄音會(huì )被壓縮得很厲害。由于電話(huà)本身8K采樣率已經(jīng)先天不足,再被壓縮的話(huà)語(yǔ)音識別效果就更差了。所以可以采取先高品質(zhì)暫存,轉譯后再壓縮。
其五,雙聲道錄音。這個(gè)大家都明白的,把客戶(hù)錄音和座席錄音分開(kāi)來(lái),就可以做更多、更精準的分析。
