
聊天機器人:平穩發(fā)展、金融成為應用規模最大領(lǐng)域
聊天機器人主要有兩種,即:任務(wù)式機器人和閑聊式機器人。
任務(wù)式機器人主要目標是幫助用戶(hù)解決帶有特定需求的問(wèn)題,而閑聊式機器人主要目的是陪用戶(hù)閑聊,打發(fā)時(shí)間。
聊天機器人:檢索式與生成式的內在邏輯
任務(wù)式機器人主要目標是幫助用戶(hù)解決帶有特定需求的問(wèn)題,而閑聊式機器人主要目的是陪用戶(hù)閑聊,打發(fā)時(shí)間。
當前聊天機器人主要有兩種實(shí)現方式:(1)檢索式;(2)生成式。
01.基于檢索的chatbot:
檢索式的方法依賴(lài)文本匹配技術(shù),在諸多候選回復中,選擇匹配分數最高的作為回復。
對語(yǔ)料檢索匹配
這種檢索在客服問(wèn)答領(lǐng)域非常常見(jiàn),只要用戶(hù)給到一個(gè)query命中知識庫哪個(gè)問(wèn)題,就將其與語(yǔ)料庫中的對話(huà)進(jìn)行匹配,篩選出用戶(hù)可能喜歡最優(yōu)解。
考慮上下文進(jìn)行評分
經(jīng)過(guò)上一輪檢索匹配,篩選出幾個(gè)候選response,需要將上下文考慮進(jìn)去,從而使得對話(huà)看起來(lái)比較智能。
由此看出:基于檢索的bot核心思想是從語(yǔ)料庫中尋找最適合的匹配回答,而bot的效果就會(huì )被相似計算的特征設計以及語(yǔ)料庫的豐富度影響。
02.基于生成的chatbot:
對于閑聊bot來(lái)講,生成模型更像是類(lèi)似機器翻譯的“編碼-解碼”的生成模式,編碼器讀取對話(huà)歷史,解碼器直接生成相應回復。
考慮上下文
每一次模型編碼都要考慮前序編碼結果,每次解碼生成的語(yǔ)句才能考慮了上下文的信息。
考慮情感化
有了情感化的chatbot才更像一個(gè)聊天的人而不是bot。這是提高用戶(hù)感受的重要因素。
考慮知識/主題
通過(guò)查詢(xún)數據庫、通過(guò)槽位追問(wèn)得到信息來(lái)作為條件限制解碼器的輸出。
加入強化學(xué)習DM
由于傳統機器人對話(huà)缺乏情感化元素,chat場(chǎng)景與task一樣需要策略管理系統。
由此看出:機器翻譯的結果比較肯定,具有客觀(guān)性。而在對話(huà)任務(wù)上,生成式的輸出結果有一定的多樣性,類(lèi)似我們做的閱讀理解題目。所以,評估生成式對話(huà)的結果是否準確,往往也是一件費時(shí)且不易判斷的事情。
生成式的聊天機器人:檢索式與生成式的內在邏輯
總體上說(shuō),生成式的聊天機器人確實(shí)還存在一些問(wèn)題,例如不可控性,語(yǔ)料成本昂貴,缺乏工業(yè)實(shí)用性等。但是,優(yōu)點(diǎn)也很明顯,例如可玩性, 生成多樣性,發(fā)展趨勢性等。
在目前主流的實(shí)際項目應用中,聊天機器人的作用更多地還是增加一些趣味性,彌補任務(wù)型或事實(shí)問(wèn)答型機器人的乏味性。也許,有一天,當自然語(yǔ)言理解的能力足夠強大時(shí),生成式機器人會(huì )逐漸替代任務(wù)型和事實(shí)型機器人的工作。
說(shuō)了那么多理論知識,也該看點(diǎn)有趣的事情了。
遠傳生成式聊天機器人基于閑聊對話(huà)算法生成模型基于GPT2模型,訓練語(yǔ)料50萬(wàn)以上,響應時(shí)間不超過(guò)300ms,并發(fā)承載200TPS。