命名實(shí)體識別(Named Entity Recognition,NER)任務(wù)的目標是識別出文本中預定義類(lèi)別的實(shí)體。作為NLP領(lǐng)域的重要基礎工具,其有效推動(dòng)了NLP技術(shù)從實(shí)驗階段走向實(shí)用化。
近期,思必馳語(yǔ)言與知識團隊對中文細粒度命名實(shí)體識別任務(wù)進(jìn)行探索,并取得階段性進(jìn)展:在CLUE數據集Fine-GrainN ER評測任務(wù)[1]中,思必馳語(yǔ)言與知識團隊目前暫列第一。該評測數據集基于清華大學(xué)開(kāi)源的文本分類(lèi)數據集THUCTC[2],選出部分進(jìn)行細粒度命名實(shí)體標注。原數據來(lái)源于Sina NewsRSS[3]。這項測評是中文自然語(yǔ)言處理領(lǐng)域的大規模賽事,有眾多知名企業(yè)同臺競技。

中文命名實(shí)體評測中的出色表現也證明了思必馳在知識挖掘方向的實(shí)力。該技術(shù)也將應用到智慧醫療綜合應用中,包括從大量醫療文獻、病歷文本和醫患對話(huà)數據中構建醫療知識圖譜,并基于知識圖譜輔助語(yǔ)義理解和知識推理,實(shí)現醫療知識問(wèn)答和醫療輔助決策。如智能導診、智能預問(wèn)診、智能診后隨訪(fǎng)。
語(yǔ)言智能常被稱(chēng)為人工智能皇冠上的一顆明珠。在未來(lái),思必馳語(yǔ)言與知識團隊將繼續深耕語(yǔ)言理解領(lǐng)域,打造出精準、通用且能夠實(shí)現自定義的命名實(shí)體識別系統,推動(dòng)命名實(shí)體識別在NLP各領(lǐng)域的落地和應用。
參考文獻:
[1]CLUE-NER公開(kāi)評測,
https://www.cluebenchmarks.com/introduce.html
[2]THUCTC工具及數據集,
http://thuctc.thunlp.org/
[3]新浪網(wǎng)RSS頻道聚合:http://rss.sina.com.cn/