2019年以來(lái),NLP預訓練模型在技術(shù)創(chuàng )新和工業(yè)應用上不斷取得突破,但當前預訓練模型仍有一些痛點(diǎn)困擾著(zhù)開(kāi)發(fā)者:
- 僅考慮單一粒度語(yǔ)義建模,缺乏多粒度知識引入,語(yǔ)義理解能力受限;
- 受限于Transformer結構的建模長(cháng)度瓶頸,無(wú)法處理超長(cháng)文本;
- 聚焦語(yǔ)言等單一模態(tài),缺乏工業(yè)真實(shí)應用場(chǎng)景針對多個(gè)模態(tài)如語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)信息的聯(lián)合建模能力。
5月20日舉辦的2021深度學(xué)習開(kāi)發(fā)者峰會(huì )WAVE SUMMIT上,依托飛槳核心框架,百度文心ERNIE最新開(kāi)源四大預訓練模型:多粒度語(yǔ)言知識增強模型ERNIE-Gram、長(cháng)文本理解模型ERNIE-Doc、融合場(chǎng)景圖知識的跨模態(tài)理解模型ERNIE-ViL、語(yǔ)言與視覺(jué)一體的模型ERNIE-UNIMO。
針對當前預訓練模型現存的難點(diǎn)痛點(diǎn),此次文心ERNIE開(kāi)源的四大預訓練模型不僅在文本語(yǔ)義理解、長(cháng)文本建模和跨模態(tài)理解三大領(lǐng)域取得突破,還擁有廣泛的應用場(chǎng)景和前景,進(jìn)一步助力產(chǎn)業(yè)智能化升級。

文心ERNIE開(kāi)源版地址:https://github.com/PaddlePaddle/ERNIE
文心ERNIE官網(wǎng)地址:https://wenxin.baidu.com/
一、多粒度語(yǔ)言知識增強模型ERNIE-Gram
從ERNIE模型誕生起,百度研究者們就在預訓練模型中引入知識,通過(guò)知識增強的方法提升語(yǔ)義模型的能力。本次發(fā)布的ERNIE-Gram模型正是通過(guò)顯式引入語(yǔ)言粒度知識,從而提升模型的效果。具體來(lái)說(shuō),ERNIE-Gram提出顯式n-gram掩碼語(yǔ)言模型,學(xué)習n-gram粒度語(yǔ)言信息,相對連續的n-gram掩碼語(yǔ)言模型大幅縮小了語(yǔ)義學(xué)習空間,(V^n→V_(n-gram),其中V為詞表大小,n為建模的gram長(cháng)度),顯著(zhù)提升預訓練模型收斂速度。

▲圖1-1連續n-gram掩碼語(yǔ)言模型vs顯式n-gram掩碼語(yǔ)言模型
此外,在顯式n-gram語(yǔ)義粒度建模基礎上,ERNIE-Gram提出多層次n-gram語(yǔ)言粒度學(xué)習,利用two-stream雙流機制,實(shí)現同時(shí)學(xué)習n-gram語(yǔ)言單元內細粒度(fine-grained)語(yǔ)義知識和n-gram語(yǔ)言單元間粗粒度(coarse-grained)語(yǔ)義知識,實(shí)現多層次的語(yǔ)言粒度知識學(xué)習。

▲圖1-2n-gram多層次語(yǔ)言粒度掩碼學(xué)習
ERNIE-Gram在不增加任何計算復雜度的前提下,在自然語(yǔ)言推斷任務(wù)、短文本相似度任務(wù)、閱讀理解任務(wù)等多個(gè)典型中文任務(wù)上,效果顯著(zhù)超越了業(yè)界主流開(kāi)源預訓練模型。此外,ERNIE-Gram英文預訓練模型也在通用語(yǔ)言理解任務(wù)、閱讀理解任務(wù)上效果超越主流模型。
ERNIE-Gram的方法被NAACL2021主會(huì )長(cháng)文錄用,論文地址:
https://arxiv.org/abs/2010.12148
二、長(cháng)文本理解模型ERNIE-Doc
Transformer是ERNIE預訓練模型所依賴(lài)的基礎網(wǎng)絡(luò )結構,但由于其計算量和空間消耗隨建模長(cháng)度呈平方級增加,導致模型難以建模篇章、書(shū)籍等長(cháng)文本內容。受到人類(lèi)先粗讀后精讀的閱讀方式啟發(fā),ERNIE-Doc首創(chuàng )回顧式建模技術(shù),突破了Transformer在文本長(cháng)度上的建模瓶頸,實(shí)現了任意長(cháng)文本的雙向建模。
通過(guò)將長(cháng)文本重復輸入模型兩次,ERNIE-Doc在粗讀階段學(xué)習并存儲全篇章語(yǔ)義信息,在精讀階段針對每一個(gè)文本片段顯式地融合全篇章語(yǔ)義信息,從而實(shí)現雙向建模,避免了上下文碎片化的問(wèn)題。
此外,傳統長(cháng)文本模型(Transformer-XL等)中RecurrenceMemory結構的循環(huán)方式限制了模型的有效建模長(cháng)度。ERNIE-Doc將其改進(jìn)為同層循環(huán),使模型保留了更上層的語(yǔ)義信息,具備了超長(cháng)文本的建模能力。

▲圖2-1ERNIE-Doc中的回顧式建模與增強記憶機制
通過(guò)讓模型學(xué)習篇章級文本段落間的順序關(guān)系,ERNIE-Doc可以更好地建模篇章整體信息。

▲圖2-2篇章重排序學(xué)習
ERNIE-Doc顯著(zhù)提升了長(cháng)文本的建模能力,可以解決很多傳統模型無(wú)法處理的應用難題。例如在搜索引擎中,ERNIE-Doc可以對網(wǎng)頁(yè)整體理解,返回用戶(hù)更加系統的結果。在智能創(chuàng )作中,ERNIE-Doc可以用來(lái)生成更加長(cháng)篇、語(yǔ)義豐富的文章。
超長(cháng)文本理解模型ERNIE-Doc在包括閱讀理解、信息抽取、篇章分類(lèi)、語(yǔ)言模型等不同類(lèi)型的13個(gè)典型中英文長(cháng)文本任務(wù)上取得最優(yōu)的效果。
ERNIE-Doc的方法被ACL2021主會(huì )長(cháng)文錄用,論文鏈接:
https://arxiv.org/abs/2012.15688
三、融合場(chǎng)景圖知識的跨模態(tài)理解模型ERNIE-ViL
跨模態(tài)的信息處理能力需要人工智能模型深入理解并綜合語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)等模態(tài)的信息。當前,基于預訓練的跨模態(tài)語(yǔ)義理解技術(shù),通過(guò)對齊語(yǔ)料學(xué)習跨模態(tài)的聯(lián)合表示,將語(yǔ)義對齊信號融合到聯(lián)合表示中,從而提升跨模態(tài)語(yǔ)義理解能力。ERNIE-ViL提出了知識增強的視覺(jué)-語(yǔ)言預訓練模型,將包含細粒度語(yǔ)義信息的場(chǎng)景圖(Scene Graph)知識融入預訓練過(guò)程,構建了物體預測、屬性預測、關(guān)系預測三個(gè)預訓練任務(wù),使得模型在預訓練過(guò)程中更加關(guān)注細粒度語(yǔ)義知識,學(xué)習到能夠刻畫(huà)更好跨模態(tài)語(yǔ)義對齊信息,得到更好的跨模態(tài)語(yǔ)義表示。

▲圖3-1知識增強的跨模態(tài)預訓練ERNIE-ViL框架
ERNIE-ViL首次將場(chǎng)景圖知識融入跨模態(tài)模型的預訓練過(guò)程,為跨模態(tài)語(yǔ)義理解領(lǐng)域研究提供了新的思路。該模型在視覺(jué)問(wèn)答、視覺(jué)常識推理、引用表達式理解、跨模態(tài)文本&圖像檢索等5個(gè)典型跨模態(tài)任務(wù)上取得了領(lǐng)先的效果。ERNIE-ViL模型也逐步在視頻搜索等真實(shí)工業(yè)應用場(chǎng)景中落地。
ERNIE-ViL的方法被AAAI-2021主會(huì )長(cháng)文錄用,論文地址:
https://arxiv.org/abs/2006.16934
四、語(yǔ)言與視覺(jué)一體的模型ERNIE-UNIMO
大數據是深度學(xué)習取得成功的關(guān)鍵基礎之一。當前的預訓練方法,通常分別在各種不同模態(tài)數據上分別進(jìn)行,難以同時(shí)支持各類(lèi)語(yǔ)言和圖像的任務(wù)。基于深度學(xué)習的AI系統是否也能像人一樣同時(shí)學(xué)習各種單模、多模等異構模態(tài)數據呢?如果能夠實(shí)現,無(wú)疑將進(jìn)一步打開(kāi)深度學(xué)習對大規模數據利用的邊界,從而進(jìn)一步提升AI系統的感知與認知的通用能力。
為此,語(yǔ)言與視覺(jué)一體的模型ERNIE-UNIMO提出統一模態(tài)學(xué)習方法,同時(shí)使用單模文本、單模圖像和多模圖文對數據進(jìn)行訓練,學(xué)習文本和圖像的統一語(yǔ)義表示,從而具備同時(shí)處理多種單模態(tài)和跨模態(tài)下游任務(wù)的能力。此方法的核心模塊是一個(gè)Transformer網(wǎng)絡(luò ),在具體訓練過(guò)程中,文本、圖像和圖文對三種模態(tài)數據隨機混合在一起,其中圖像被轉換為目標(object)序列,文本被轉換為詞(token)序列,圖文對被轉換為目標序列和詞序列的拼接。統一模態(tài)學(xué)習對三種類(lèi)型數據進(jìn)行統一處理,在目標序列或者詞序列上基于掩碼預測進(jìn)行自監督學(xué)習,并且基于圖文對數據進(jìn)行跨模態(tài)對比學(xué)習,從而實(shí)現圖像與文本的統一表示學(xué)習。進(jìn)一步的,這種聯(lián)合學(xué)習方法也讓文本知識和視覺(jué)知識互相增強,從而有效提升文本語(yǔ)義表示和視覺(jué)語(yǔ)義表示的能力。

此方法在語(yǔ)言理解與生成、多模理解與生成,4類(lèi)場(chǎng)景、共13個(gè)任務(wù)上超越主流的文本預訓練模型和多模預訓練模型,同時(shí)登頂權威視覺(jué)問(wèn)答榜單VQA、文本推理榜單aNLI。首次驗證了通過(guò)非平行的文本與圖像單模數據,能夠讓語(yǔ)言知識與視覺(jué)知識相互增強。
此工作被ACL2021主會(huì )長(cháng)文錄用,論文地址:
https://arxiv.org/abs/2012.15409
五、破解NLP技術(shù)難題,助力產(chǎn)業(yè)智能化
文心ERNIE全新開(kāi)源發(fā)布4大預訓練模型,不斷推動(dòng)NLP模型技術(shù)研究層面的創(chuàng )新與應用。
語(yǔ)言與知識技術(shù)被看作是人工智能認知能力的核心。2019年以來(lái),百度憑借在自然語(yǔ)言處理領(lǐng)域的深厚積累取得了系列世界突破,發(fā)布了文心ERNIE語(yǔ)義理解平臺,該平臺廣泛用于金融、通信、教育、互聯(lián)網(wǎng)等行業(yè),助力產(chǎn)業(yè)智能化升級。

作為“人工智能皇冠上的明珠”,NLP領(lǐng)域向來(lái)是人工智能技術(shù)研發(fā)與落地實(shí)踐的前沿。百度文心平臺基于領(lǐng)先的語(yǔ)義理解技術(shù),幫助企業(yè)在NLP賽道上跨過(guò)技術(shù)、工具、算力、人才等門(mén)檻,對開(kāi)發(fā)者和企業(yè)進(jìn)行開(kāi)放,全面加速NLP技術(shù)助力全產(chǎn)業(yè)智能化升級,為AI工業(yè)大生產(chǎn)插上智能的“翅膀”。
百度自然語(yǔ)言處理(Natural Language Processing,NLP)以‘理解語(yǔ)言,擁有智能,改變世界’為使命,研發(fā)自然語(yǔ)言處理核心技術(shù),打造領(lǐng)先的技術(shù)平臺和創(chuàng )新產(chǎn)品,服務(wù)全球用戶(hù),讓復雜的世界更簡(jiǎn)單。