知識圖譜作為自然語(yǔ)言處理技術(shù)的應用之一,在幫助機器理解自然語(yǔ)言方面具有重要意義。小i機器人研究院算法研究員沈大框在大會(huì )上提到,知識圖譜最早是由Google提出,主要是用來(lái)優(yōu)化現有的搜索引擎。不同于傳統的基于關(guān)鍵詞檢索的搜索引擎,知識圖譜基于預先構建的實(shí)體屬性關(guān)系三元組內蘊含的豐富的關(guān)聯(lián)信息,能夠更快速有效地反饋準確結果,并提供更豐富的關(guān)聯(lián)參考信息,讓搜索引擎從關(guān)鍵詞檢索向語(yǔ)義檢索邁進(jìn)。

小i機器人研究院算法研究員沈大框
目前,知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式,而這兩種構建方式都離不開(kāi)知識抽取這一步驟。沈大框在此次大會(huì )上分享到小i機器人在構建知識圖譜的過(guò)程中提出了一種基于BERT的管道式的關(guān)系抽取方法,可以從各種信息源中抽取三元組關(guān)系知識,并集成到現有結構化知識庫中。該關(guān)系抽取方法先識別句子中存在的關(guān)系,然后根據關(guān)系抽取句子中的主語(yǔ)和賓語(yǔ)。存在關(guān)系識別可以看成一個(gè)多標簽分類(lèi)任務(wù),模型使用BERT獲取深度語(yǔ)義信息,然后增加CNN網(wǎng)絡(luò )獲取句子的詞性與分詞信息極大提升了關(guān)系識別的準確度。主語(yǔ)與賓語(yǔ)識別模型則采用BERT+CRF序列標注的方式,解決了句子中單個(gè)關(guān)系多主語(yǔ)或者多謂語(yǔ)的問(wèn)題。這兩種模型結合的使用,使得單句中存在多個(gè)復雜關(guān)系的抽取的問(wèn)題迎刃而解。
小i機器人也在運用包括知識圖譜相關(guān)技術(shù)在內的全套解決方案,以認知智能賦能行業(yè)企業(yè)的智能化升級。小i機器人為行業(yè)企業(yè)提供的智能客服解決方案便融合了知識圖譜的相關(guān)能力,能夠在行業(yè)領(lǐng)域內快速自動(dòng)地生成背景知識庫,輔助客服機器人深度理解用戶(hù)問(wèn)題,讓客服系統的業(yè)務(wù)能力得到進(jìn)一步提升,很好的滿(mǎn)足銀行業(yè)務(wù)、信通訊業(yè)務(wù)、保險業(yè)務(wù)、電商業(yè)務(wù)、政府公共服務(wù)業(yè)務(wù)等領(lǐng)域的業(yè)務(wù)需求。