
受訪(fǎng)者|楊植麟,循環(huán)智能聯(lián)合創(chuàng )始人
記者|徐威龍,編輯|郭芮
出品|CSDN(ID:CSDNnews)
「AI技術(shù)生態(tài)論」人物訪(fǎng)談欄目是CSDN發(fā)起的百萬(wàn)人學(xué)AI倡議下的重要組成部分。通過(guò)對AI生態(tài)頂級大咖、創(chuàng )業(yè)者、行業(yè)KOL的訪(fǎng)談,反映其對于行業(yè)的思考、未來(lái)趨勢的判斷、技術(shù)的實(shí)踐,以及成長(cháng)的經(jīng)歷。本文為該系列訪(fǎng)談的第12期,通過(guò)和循環(huán)智能聯(lián)合創(chuàng )始人楊植麟的訪(fǎng)談,本文詳細解讀了XLNet模型等自然語(yǔ)言技術(shù)以及對話(huà)數據的應用場(chǎng)景等內容。
近年來(lái),由于面向大規模用戶(hù)的音頻、視頻、圖像等業(yè)務(wù)急劇增長(cháng),全球數據量呈現出爆發(fā)式的增長(cháng),“數據石油”也為無(wú)數的科技公司提供了“覆手為云”的發(fā)展契機。數據預測,到2020年全球的數據量將到達40ZB,車(chē)聯(lián)網(wǎng)、智能制造、智慧能源、無(wú)線(xiàn)醫療、無(wú)線(xiàn)家庭娛樂(lè )、無(wú)人機等新型應用都將創(chuàng )造出新的數據維度。技術(shù)換代下,伴隨著(zhù)數據海嘯而來(lái)的“淘金熱”也居高不下。
事實(shí)證明,數據帶來(lái)的機會(huì )是極為龐大的,但目前人們還未能徹底挖掘出數據資產(chǎn)的全部?jì)r(jià)值。在過(guò)去,對話(huà)數據的“含金量”就一直被嚴重忽視了。
隨著(zhù)自然語(yǔ)言處理技術(shù)的不斷發(fā)展,時(shí)下的對話(huà)數據價(jià)值正在逐漸被喚醒,不同領(lǐng)域的最佳行業(yè)實(shí)踐和實(shí)際效果都在逐步提升——而那些富有遠見(jiàn)的企業(yè),已經(jīng)開(kāi)始重視對話(huà)數據的價(jià)值了,但是他們之中的很多人仍缺乏利用這些數據產(chǎn)生業(yè)務(wù)價(jià)值的最佳實(shí)踐。循環(huán)智能則正是基于此出發(fā)點(diǎn),填補了這一技術(shù)空缺。
基于原創(chuàng )的XLNet模型、Transformer-XL模型等自然語(yǔ)言處理底層技術(shù),循環(huán)智能打造了領(lǐng)先的AI技術(shù)矩陣。“我們做的事情主要就是:從銷(xiāo)售過(guò)程產(chǎn)生的對話(huà)數據中,包括跟企業(yè)的IM聊天、微信聊天、電話(huà)銷(xiāo)售溝通,進(jìn)行文本的洞察,實(shí)現決策層面的賦能,最終提升銷(xiāo)售的轉化率。”針對不同行業(yè)的具體需求,實(shí)現不同的對話(huà)數據應用場(chǎng)景落地。在本文中,CSDN采訪(fǎng)了循環(huán)智能聯(lián)合創(chuàng )始人楊植麟,其將從對話(huà)數據的應用場(chǎng)景出發(fā),為我們全面解析XLNet模型原理、核心技術(shù)、當前NLP的發(fā)展以及AI人才成長(cháng)路徑等內容。
在深度學(xué)習和自然語(yǔ)言處理領(lǐng)域,楊植麟頗有建樹(shù)。作為第一作者,其與卡內基梅隆大學(xué)、Google Brain團隊聯(lián)合推出NLP領(lǐng)域熱門(mén)的國際前沿預訓練XLNet模型,在20個(gè)標準任務(wù)上超過(guò)了曾經(jīng)保持最優(yōu)性能記錄的Google BERT模型,并在18個(gè)標準任務(wù)上取得歷史最好結果,更被稱(chēng)為“BERT之后的重要進(jìn)展”。

△楊植麟與兩位導師Ruslan Salakhutdinov(蘋(píng)果AI研究負責人,右)、William Cohen(谷歌Principal Scientist,左)合影
在北京智源人工智能研究院公布的2019年度“智源青年科學(xué)家”名單中,他還是最年輕的、也是唯一的“90后”。
分析對話(huà)語(yǔ)義,挖掘數據價(jià)值
發(fā)揮數據價(jià)值已成為大多企業(yè)的共識,在這其中,很多企業(yè)出于提升服務(wù)水平和效率、保存企業(yè)數據資產(chǎn)的原因,存儲了大量銷(xiāo)售與客戶(hù)、客服與客戶(hù)溝通的錄音、文本記錄。如何從對話(huà)數據中找到對企業(yè)有用的信息、挖掘出客戶(hù)所表達內容中隱含的潛在產(chǎn)品需求——則是循環(huán)智能的技術(shù)初衷所在。
他表示,目前具體有四個(gè)場(chǎng)景:第一,使用對話(huà)數據,做高意向銷(xiāo)售線(xiàn)索的挖掘、排序和打分,給每一個(gè)線(xiàn)索做解決方案匹配和產(chǎn)品推薦;第二,從對話(huà)數據中抽取客戶(hù)畫(huà)像,幫助企業(yè)構造畫(huà)像體系。企業(yè)借助畫(huà)像體系可以設計針對性的運營(yíng)活動(dòng);第三,從對話(huà)數據中自動(dòng)挖掘銷(xiāo)售的有效話(huà)術(shù),這些有效話(huà)術(shù)可以為銷(xiāo)售新人做實(shí)時(shí)輔助,告訴新人更高效地與客戶(hù)溝通;第四,監測話(huà)術(shù)的執行情況,這個(gè)過(guò)程通常被稱(chēng)為執行力監督或質(zhì)檢。“
同時(shí),我們通過(guò)分析對話(huà)的語(yǔ)義跟最終結果——是否成單之間的關(guān)系,預測哪些對話(huà)有更高的成單意向,從而讓這四個(gè)場(chǎng)景形成閉環(huán)。”在實(shí)際案例上,楊植麟分享了一個(gè)比較Top的壽險公司應用,“我們的線(xiàn)索評分上線(xiàn)之后,大概通話(huà)時(shí)長(cháng)提升了100%,轉化率提升了到原來(lái)的270%。”

△循環(huán)智能的產(chǎn)品架構圖
技術(shù)層剖析:XLNet優(yōu)于BERT
“在技術(shù)實(shí)現層面,我們所做的事情和實(shí)現的場(chǎng)景,跟傳統的對話(huà)機器人、聊天機器人或者機器人客服,都有著(zhù)極大的差別。”
楊植麟表示,機器人主要做的事情是通過(guò)一套模板做簡(jiǎn)單的匹配,匹配之后用規則去生成接下來(lái)要說(shuō)什么。從技術(shù)上說(shuō),目前機器人公司基本上沒(méi)有使用新一代技術(shù),而循環(huán)智能所做的業(yè)務(wù)場(chǎng)景則是幫企業(yè)做產(chǎn)品與客戶(hù)的匹配、銷(xiāo)售線(xiàn)索推薦,這些場(chǎng)景直接影響企業(yè)的業(yè)績(jì),因此企業(yè)對準確率非常敏感,必須使用最新一代的、更高準確率的技術(shù)才可以。“我們用了自己原創(chuàng )的XLNet算法去做很大的模型,用很多的數據去學(xué)習,使得標注的效率、對文本長(cháng)序列的處理都取得了很大提升,可以來(lái)支撐我們的上層業(yè)務(wù)。”此外,還能更好地結合上下文語(yǔ)義,從溝通對話(huà)數據中實(shí)時(shí)提取語(yǔ)義標簽,來(lái)做合規質(zhì)檢、客戶(hù)畫(huà)像和反饋的自動(dòng)挖掘、銷(xiāo)售和客服的執行力監督。
在楊植麟看來(lái),相比BERT,XLNet模型有其明顯的優(yōu)越性。原理上,兩者都是屬于預訓練的方法。但從更具體的角度來(lái)說(shuō),XLNet其實(shí)是融合了兩種不同的預訓練方法:自回歸和自編碼兩種。“BERT可以看成是一種自編碼的方法,XLNet則會(huì )克服BERT的一些缺點(diǎn)”,主要是兩個(gè):XLNet不用引入特殊的Mask符號,所以會(huì )減輕在預訓練和微調(Fine-tuning)時(shí)候數據分布不一致的情況;此外,XLNet可以對不同詞之間的關(guān)聯(lián)性進(jìn)行建模,而B(niǎo)ERT假設所有要預測詞之間都是獨立的。XLNet通過(guò)一些比較巧妙的、形式上的變化,使得它不需要有這個(gè)假設。“所以XLNet是一個(gè)更通用的模型,去掉了比較嚴格的假設,可以對自然語(yǔ)言里面的上下文關(guān)系進(jìn)行更好地建模。”

△XLNet原理圖
在具體的產(chǎn)品和解決方案背后,循環(huán)智能同樣面臨著(zhù)兩方面的技術(shù)難點(diǎn)。一方面,他們需要將自己提出來(lái)的模型用到業(yè)務(wù)場(chǎng)景里面,另一方面是要針對具體場(chǎng)景里的一些挑戰,針對性地提出技術(shù)解決辦法。具體來(lái)說(shuō),“第一塊主要是用了我們提出的Transformer-XL、XLNet等一系列通用NLP模型,以及一些主動(dòng)學(xué)習(ActiveLearning)的算法,作為底層去支撐上層的應用。第二塊就是針對這些具體的場(chǎng)景,它相對來(lái)說(shuō)會(huì )有一些比較難的地方。”
難點(diǎn)1:線(xiàn)索評分會(huì )涉及到怎么去融合多種不同模態(tài)的數據。比如除了對話(huà)數據,有時(shí)候還會(huì )有行為數據、業(yè)務(wù)數據,需要將不同模態(tài)的數據融合到同一個(gè)框架。
難點(diǎn)2:怎么對很長(cháng)的對話(huà)結構的文本進(jìn)行建模。用預訓練好的模型通常效果不好,因為它一無(wú)法有效地對對話(huà)結構進(jìn)行建模,二沒(méi)辦法對很長(cháng)的文本序列進(jìn)行建模,所以要對模型進(jìn)行改進(jìn),我們現在可以處理長(cháng)度幾千個(gè)詞的文本。
難點(diǎn)3:規模化生產(chǎn)沒(méi)有辦法非常依賴(lài)標注數據,所以需要提升標注的效率。通過(guò)小樣本學(xué)習的思路,上了一套新的系統,現在只用10%的標注量,就可以達到跟以前一樣的效果,這對規模化復制業(yè)務(wù)有非常大的幫助。
這其中,技術(shù)瓶頸是不可避免的。
“做實(shí)驗的時(shí)候,你每一個(gè)新的想法不一定都能Work。”楊植麟認為更重要的是在應對瓶頸的時(shí)候,把心態(tài)變得更好。“很多時(shí)候,你不是需要追求做實(shí)驗一直不失敗,而是要用更快的速度去迭代,用更快的速度取得結果。”
NLP輝煌時(shí)代已至
最近幾年,語(yǔ)音識別、計算機視覺(jué)、語(yǔ)言理解等技術(shù)的“崛起”使得沉寂了半個(gè)多世紀的人工智能再次火爆起來(lái)。事實(shí)也證明,人工智能不僅僅是需求驅動(dòng),而且是內生驅動(dòng)。
楊植麟認為,算法和算力其實(shí)是一個(gè)螺旋螺旋式上升的過(guò)程。“人工智能的驅動(dòng)方式是算力和算法螺旋型上升、相輔相成。一開(kāi)始算力非常小,科學(xué)家只能去研究最好的算法。但是等到算力大的時(shí)候,很多算法就沒(méi)用了。很多論文都有這種問(wèn)題:在算力小的情況下跑了一下效果不錯,但是算力大的時(shí)候,一點(diǎn)用都沒(méi)有。”“本質(zhì)上,在算法和算力互相迭代的過(guò)程中,最新一代的算法解決了大數據和大模型這兩個(gè)問(wèn)題,比如說(shuō)做NLP的話(huà),那大模型就是Transformer,大數據就是通過(guò)預訓練來(lái)解決的。”
也正是大模型+大數據的“繁榮”,直接造就了當下NLP的輝煌時(shí)代。
他表示最近幾年NLP領(lǐng)域有兩大突破:第一個(gè)突破是從模型的角度看,從簡(jiǎn)單的模型演進(jìn)到了基于Transformer的大模型。Transformer的好處是隨著(zhù)參數的變多,效果不斷變好,而且具有非常強的長(cháng)距離建模的能力。Transformer模型這兩個(gè)優(yōu)點(diǎn),使得現在可以做到很多以前做不了的事情。第二個(gè)比較大的進(jìn)步是思維范式上的轉變,誕生了基于預訓練的方式,可以有效地利用沒(méi)有標注的數據。“簡(jiǎn)單來(lái)說(shuō),Transformer是模型角度的突破,預訓練方法是思維范式上的突破,前者解決的是如何訓練一個(gè)大模型的問(wèn)題,后者解決的是如何解決NLP沒(méi)有大數據的問(wèn)題。”
對于那些想要扎根AI領(lǐng)域的開(kāi)發(fā)者來(lái)說(shuō),楊植麟表示把握當下的時(shí)代契機十分重要。“想學(xué)習AI開(kāi)發(fā)技術(shù),我覺(jué)得可以分兩條路徑:第一條路徑是自上向下的、系統性的學(xué)習。比如看一本比較系統性的教科書(shū),或者網(wǎng)上的課程,幫助你對整個(gè)領(lǐng)域的知識脈絡(luò )有一些系統性的了解;第二條路徑是自底向上、需求驅動(dòng)的做法。就是說(shuō),你先遇到現實(shí)中的一個(gè)問(wèn)題,然后從這個(gè)問(wèn)題出發(fā),通過(guò)各種網(wǎng)上的搜索工具去調研相關(guān)的文獻。”而最最重要的是,“一定要去寫(xiě)代碼!”,或者去跑一些真正的代碼,而不僅僅停留在看的層面——實(shí)踐很重要。
從“人機單獨作戰”到“人機耦合”,AI終將賦能溝通
“在人工智能領(lǐng)域,我最欣賞‘神經(jīng)網(wǎng)絡(luò )之父’Geofrey Hinton,因為他是最早的奠基人,重要性不言而喻。”也是他,驅使楊植麟多年來(lái)在自然語(yǔ)言處理領(lǐng)域持續深耕下去,此外,“我覺(jué)得語(yǔ)言本身比較有意思,語(yǔ)言是人類(lèi)知識和認知的載體,如果機器能夠理解語(yǔ)言,然后在理解語(yǔ)言的基礎上進(jìn)行推理,去做出一些決策,其實(shí)是一種很高級的智能的表現,這也是人工智能領(lǐng)域比較重要的話(huà)題。另一方面則跟時(shí)機有關(guān),因為我四五年前開(kāi)始做研究的時(shí)候,計算機視覺(jué)CV或者語(yǔ)音識別這兩塊已經(jīng)取得突破了,很多效果已經(jīng)做得比較好了。但NLP仍缺少一些突破,我覺(jué)得這個(gè)領(lǐng)域會(huì )有更多有挑戰性的問(wèn)題需要去解決。”
而Google、Facebook等頂尖公司的工作經(jīng)歷,也為他后來(lái)的成功創(chuàng )業(yè)打下了基礎。“在這兩家公司有兩個(gè)最直接的收獲:其一就是做了一些研究成果出來(lái),現在我們也在實(shí)際落地運用,包括ActiveLearning(主動(dòng)學(xué)習)的思想、預訓練模型,都可以直接用上;第二個(gè)收獲,更偏的方法論。就是說(shuō),遇到一個(gè)問(wèn)題的時(shí)候學(xué)著(zhù)將大的問(wèn)題拆成小的問(wèn)題,然后逐個(gè)擊破。我覺(jué)得其實(shí)創(chuàng )業(yè)跟研究有很多方法論上共通的地方。”
但在A(yíng)I真正去賦能溝通的坦蕩前路上,還有一些亟待突破的技術(shù)難點(diǎn)。他表示主要有三個(gè)方面:
第一,從“人機單獨作戰”到“人機耦合”。現在市面上做對話(huà)機器人的公司最多,它們做的事情其實(shí)是“人機單獨作戰”。比如在銷(xiāo)售場(chǎng)景下,把銷(xiāo)售線(xiàn)索先讓機器人去跟進(jìn),然后其中比較好的再讓人去跟;在客服場(chǎng)景下也是一樣,先用機器人去接一些簡(jiǎn)單的問(wèn)題,難的再交給人工客服去接。這其實(shí)是一個(gè)割裂的狀態(tài),機器人和人做的是獨立的任務(wù),沒(méi)有實(shí)現協(xié)同。“我們希望讓人和機器更好地耦合,比如在銷(xiāo)售過(guò)程中,機器給業(yè)務(wù)員提供輔助,協(xié)助人做決策,或者機器給人推薦方案,由人去執行方案。我覺(jué)得“人機耦合”最終會(huì )成為銷(xiāo)售場(chǎng)景比較好的形態(tài),而不僅僅是人和機器分別作戰。”
第二,從比較淺層的客戶(hù)觸達到深度的決策輸出。還是對話(huà)機器人的例子,他們做事情主要是用自動(dòng)外呼機器人給客戶(hù)傳遞一些簡(jiǎn)單信息,或者是問(wèn)一些簡(jiǎn)單問(wèn)題收集一個(gè)問(wèn)卷,或者做個(gè)提醒功能。這些其實(shí)是比較淺層的觸達,就是說(shuō)機器人只負責傳遞信息,而且是較為淺顯的信息。“我們做的事情是讓機器學(xué)習或者NLP算法深度參與到最重要的銷(xiāo)售決策過(guò)程,包括應該去跟進(jìn)哪些人、給他推什么東西、如何與客戶(hù)做溝通等。”
第三,要讓機器能有自學(xué)習的能力。“當我們做到人機耦合、機器可以跟人一起工作,那機器就需要能根據人的行為或者人的決策產(chǎn)生的結果,去自動(dòng)更新和升級算法模型,形成閉環(huán),幫助銷(xiāo)售能力一直演進(jìn)下去,而非停留在靜態(tài)模型。”