DigSci科學(xué)數據挖掘大賽比賽是清華AMiner、智源實(shí)驗室、微軟聯(lián)合舉辦的學(xué)術(shù)論文搜索匹配大賽,屬于語(yǔ)義匹配檢索領(lǐng)域,旨在從學(xué)術(shù)材料中挖掘知識。比賽提供一個(gè)約含20萬(wàn)篇論文的論文庫,同時(shí)提供對論文的文字描述,描述來(lái)自論文中對同類(lèi)研究的介紹,參賽選手需要為描述段落匹配三篇最相關(guān)的論文。本次比賽吸引了來(lái)自包括清華、北大、浙大、復旦等全國著(zhù)名高校和企業(yè)組成的100多支專(zhuān)業(yè)隊伍參加。
挑戰知識挖掘技術(shù)高點(diǎn)
學(xué)術(shù)論文是人類(lèi)最前沿的知識載體,通過(guò)自然語(yǔ)言處理技術(shù),自動(dòng)識別一段文本描述最相關(guān)的論文,可以在學(xué)術(shù)搜索、科研知識圖譜、科研自動(dòng)問(wèn)答系統、科研自動(dòng)摘要等領(lǐng)域落地。本次比賽的難點(diǎn)在于給定描述段落匹配的一篇論文(正樣本),在沒(méi)有負樣本的情況下要求參賽者給出一個(gè)描述段落最匹配的三篇論文。參賽者需要從大規模論文庫中匹配最相關(guān)的論文,涉及到語(yǔ)義表示、語(yǔ)義檢索等技術(shù)難點(diǎn)。如何縮小搜索范圍以及如何確保縮小的搜索范圍包含了與描述匹配的論文成為比賽的關(guān)鍵技術(shù)。
華為云聯(lián)合武漢大學(xué)、重慶郵電大學(xué),憑借華為云語(yǔ)音語(yǔ)義創(chuàng )新Lab在自然語(yǔ)言處理領(lǐng)域深厚的技術(shù)積累,采用了候選訓練集自動(dòng)生成、自動(dòng)特征抽取和選擇、深度學(xué)習文本匹配算法、模型融合集成等技術(shù)。華為云自然語(yǔ)言處理專(zhuān)家提出的候選訓練集自動(dòng)生成技術(shù)對模型取得優(yōu)異結果起到了關(guān)鍵作用。該技術(shù)針對一個(gè)描述段落,自動(dòng)從大規模論文庫中生成一個(gè)候選訓練集合,并通過(guò)語(yǔ)義表示和語(yǔ)義匹配確保候選集中包含了待匹配論文。同時(shí)采樣負樣本,構建出均衡的正負樣本集合用于訓練有監督的深度語(yǔ)義匹配模型。

華為云獲DigSci科學(xué)數據挖掘大賽冠軍
推出知識計算即服務(wù)(KaaS)框架
在已有的自然語(yǔ)言理解、對話(huà)機器人、語(yǔ)音交互等語(yǔ)音語(yǔ)義類(lèi)服務(wù)基礎上,華為云語(yǔ)音語(yǔ)義創(chuàng )新Lab持續創(chuàng )新,于2019年推出了知識計算即服務(wù)(KaaS)框架,助力政企客戶(hù)破解大型企業(yè)和政府機構的智能化知識挖掘和管理難題,實(shí)現知識化轉型。該框架基于在自然語(yǔ)言處理、知識圖譜、深度學(xué)習、圖計算等領(lǐng)域的技術(shù)積累和實(shí)踐,以知識計算云服務(wù)形式提供全棧知識計算流水線(xiàn)平臺,能夠針對不同行業(yè)多源異構數據進(jìn)行分析和處理,通過(guò)流水線(xiàn)平臺幫助客戶(hù)構建知識獲取、知識建模、知識管理和知識應用的全套知識管理體系。
在2019年華為全聯(lián)接大會(huì )上,中石油攜手華為聯(lián)合發(fā)布了勘探開(kāi)發(fā)人工智能平臺,基于知識計算即服務(wù)框架,華為云助力中石油進(jìn)行勘探開(kāi)發(fā)知識體系的構建、計算和應用,為油氣勘探開(kāi)發(fā)科研、生產(chǎn)管理提供智能化分析手段,實(shí)現油氣行業(yè)的知識化轉型。
憑借創(chuàng )新性和技術(shù)先進(jìn)性,“華為云知識計算云服務(wù)”獲得了行業(yè)權威獎項“2019數博會(huì )領(lǐng)先科技成果獎”。在不久前全國知識圖譜及語(yǔ)義計算大會(huì )(CCKS 2019)上,華為云還獲得了中文知識圖譜問(wèn)答大賽“創(chuàng )新技術(shù)獎”。
目前,華為云語(yǔ)音語(yǔ)義相關(guān)服務(wù)已經(jīng)成功應用于政務(wù)、金融、油氣、醫療、汽車(chē)、物流、保險、電商、稅務(wù)、媒體等具有語(yǔ)音識別、語(yǔ)言理解、知識管理等需求的業(yè)務(wù)領(lǐng)域。