NLP主要研究能實(shí)現人與計算機之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。而用自然語(yǔ)言與計算機進(jìn)行通信,有著(zhù)十分重要的實(shí)際應用意義,也有著(zhù)革命性的理論意義。實(shí)現人機間自然語(yǔ)言通信意味著(zhù)要使計算機既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達給定的意圖、思想等;前者稱(chēng)為自然語(yǔ)言理解(Natural Language Understanding,簡(jiǎn)稱(chēng)NLU),后者稱(chēng)為自然語(yǔ)言生成(Natural Language Generation,簡(jiǎn)稱(chēng)NLG)。因此,NLP大體包括了NLU和NLG兩個(gè)部分。因為處理自然語(yǔ)言的關(guān)鍵是要讓計算機”理解“自然語(yǔ)言,所以通常把NLU視為NLP,也稱(chēng)為計算語(yǔ)言學(xué)。
NLP是一門(mén)融語(yǔ)言學(xué)、計算機科學(xué)、數學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們日常使用的語(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著(zhù)密切的聯(lián)系,但又有重要的區別。NLP并不是一般地研究自然語(yǔ)言,而是研制能有效地實(shí)現自然語(yǔ)言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學(xué)的一部分。可以說(shuō),NLP是計算機科學(xué)、語(yǔ)言學(xué)、AI等關(guān)注計算機和人類(lèi)語(yǔ)言之間的相互作用的領(lǐng)域。目前,人們對AI的需求也從計算智能、感知智能到了以NLP為代表的認知智能的層面。沒(méi)有成功的NLP,就不會(huì )有真正的認知智能。因此,NLP被視為AI的核心問(wèn)題之一,也被喻為AI皇冠上的明珠。
由于A(yíng)I包括感知智能(比如圖像識別、語(yǔ)言識別和手勢識別等)和認知智能(主要是語(yǔ)言理解知識和推理),而語(yǔ)言在認知智能起到最核心的作用。如果能把語(yǔ)言問(wèn)題解決了,AI最難的部分也就基本解決了。美國微軟公司創(chuàng )始人比爾·蓋茨先生曾經(jīng)表示,”語(yǔ)言理解是人工智能領(lǐng)域皇冠上的明珠“。前微軟公司全球執行副總裁沈向洋先生也在公開(kāi)演講時(shí)說(shuō):“懂語(yǔ)言者得天下……下一個(gè)十年,人工智能的突破在自然語(yǔ)言的理解……人工智能對人類(lèi)影響最為深刻的就是自然語(yǔ)言方面”。由于理解自然語(yǔ)言需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力,所以NLP也被視為解決AI完備(AI-complete)的核心問(wèn)題之一。可以說(shuō),NLP目前是AI領(lǐng)域的關(guān)鍵核心技術(shù),對它的研究也是充滿(mǎn)魅力和挑戰的。
最早的NLP研究工作是機器翻譯。1949年,美國知名科學(xué)家沃倫o韋弗先生首先提出了機器翻譯設計方案。20世紀60年代,許多科學(xué)家對機器翻譯曾有大規模的研究工作,耗費了巨額費用;但他們顯然是低估了自然語(yǔ)言的復雜性,語(yǔ)言處理的理論和技術(shù)均不成熟,所以進(jìn)展不大。當時(shí)的主要做法是存儲兩種語(yǔ)言的單詞、短語(yǔ)對應譯法的大辭典,翻譯時(shí)一一對應,技術(shù)上只是調整語(yǔ)言的同條順序。但日常生活中語(yǔ)言的翻譯遠不是如此簡(jiǎn)單,很多時(shí)候還要參考某句話(huà)前后的意思,需要上下文聯(lián)系起來(lái)才能正確翻譯--這就是機譯技術(shù)難度高之所在。
大約20世紀90年代開(kāi)始,NLP領(lǐng)域發(fā)生了巨大的變化。這種變化有兩個(gè)明顯的特征:(1)對系統的輸入,要求研制的NLP系統能處理大規模的真實(shí)文本,而不是如以前的研究性系統那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統才有真正的實(shí)用價(jià)值。(2)對系統的輸出,鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對系統并不要求能對自然語(yǔ)言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。同時(shí),由于強調了“大規模”和“真實(shí)文本”,所以下面兩方面的基礎性工作也得到了重視和加強:(1)大規模真實(shí)語(yǔ)料庫的研制。大規模的經(jīng)過(guò)不同深度加工的真實(shí)文本的語(yǔ)料庫,是研究自然語(yǔ)言統計性質(zhì)的基礎;如果沒(méi)有這樣的語(yǔ)料庫,統計方法只能是無(wú)源之水。(2)大規模、信息豐富的詞典的編制工作。因此規模為幾萬(wàn),十幾萬(wàn),甚至幾十萬(wàn)詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對NLP的重要性是很明顯的。
系統的輸入與輸出這兩個(gè)特征在NLP的諸多領(lǐng)域都有所體現,其發(fā)展直接促進(jìn)了計算機自動(dòng)檢索技術(shù)的出現和興起。實(shí)際上,隨著(zhù)計算機技術(shù)的不斷發(fā)展,以海量計算為基礎的機器學(xué)習、數據挖掘、數據建模等技術(shù)的表現也愈發(fā)優(yōu)異。NLP之所以能夠度過(guò)“寒冬”,再次發(fā)展,也是因為計算機科學(xué)與統計科學(xué)的不斷結合,才讓人類(lèi)甚至機器能夠不斷從大量數據中發(fā)現“特征”并加以學(xué)習。不過(guò)要實(shí)現對自然語(yǔ)言真正意義上的理解,僅僅從原始文本中進(jìn)行學(xué)習是不夠的,我們還需要新的方法和模型。
目前存在的問(wèn)題主要有兩個(gè)方面:一方面,迄今為止的語(yǔ)法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話(huà)環(huán)境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語(yǔ)省略、代詞所指、同一句話(huà)在不同場(chǎng)合或由不同的人說(shuō)出來(lái)所具有的不同含義等問(wèn)題,尚無(wú)明確規律可循,需要加強語(yǔ)義學(xué)和語(yǔ)用學(xué)的研究才能逐步解決。另一方面,人理解一個(gè)句子不是單憑語(yǔ)法,還運用了大量的有關(guān)知識,包括生活知識和專(zhuān)門(mén)知識,這些知識無(wú)法全部貯存在計算機里。因此一個(gè)書(shū)面理解系統只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的貯存量和運轉速度大大提高之后,才有可能適當擴大范圍。
由于語(yǔ)言工程、認知科學(xué)等主要局限于實(shí)驗室,目前來(lái)看數據處理可能是NLP應用場(chǎng)景最多的一個(gè)發(fā)展方向。實(shí)際上,自從進(jìn)入大數據時(shí)代,各大平臺就沒(méi)有停止過(guò)對用戶(hù)數據的深度挖掘。要想提取出有用的信息,僅提取關(guān)鍵詞、統計詞頻等是遠遠不夠的,必須對用戶(hù)數據(尤其是發(fā)言、評論等)進(jìn)行語(yǔ)義上的理解。另外,利用離線(xiàn)大數據統計分析的方法進(jìn)行NLP任務(wù)的研究是目前非常有潛力的一種研究范式,尤其是谷歌、推特、百度等大公司在這類(lèi)應用上的成功經(jīng)驗,引領(lǐng)了目前大數據研究的浪潮。
NLP是為各類(lèi)企業(yè)及開(kāi)發(fā)者提供的用于文本分析及挖掘的核心工具,已經(jīng)廣泛應用在電商、金融、物流、醫療、文化娛樂(lè )等行業(yè)客戶(hù)的多項業(yè)務(wù)中。它可幫助用戶(hù)搭建內容搜索、內容推薦、輿情識別及分析、文本結構化、對話(huà)機器人等智能產(chǎn)品,也能夠通過(guò)合作,定制個(gè)性化的解決方案。由于理解自然語(yǔ)言,需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力,所以NLP也被視為解決強AI的核心問(wèn)題之一,其未來(lái)一般也因此密切結合AI發(fā)展,尤其是設計一個(gè)模仿人腦的神經(jīng)網(wǎng)絡(luò )。
訓練NLP文本解析AI系統需要采集大量多源頭數據集,對科學(xué)家來(lái)說(shuō)是一項持續的挑戰:需要使用最新的深度學(xué)習模型,模仿人類(lèi)大腦中神經(jīng)元的行為,在數百萬(wàn)甚至數十億的注釋示例中進(jìn)行訓練來(lái)持續改進(jìn)。當下一種流行的NLP解決方案是預訓練,它改進(jìn)了對未標記文本進(jìn)行訓練的通用語(yǔ)言模型,以執行特定任務(wù);它的思想就是,該模型的參數不再是隨機初始化,而是先有一個(gè)任務(wù)進(jìn)行訓練得到一套模型參數,然后用這套參數對模型進(jìn)行初始化,再進(jìn)行訓練,以獲得更好的預測性見(jiàn)解。
目前我們已經(jīng)進(jìn)入了以互聯(lián)網(wǎng)為主要標志的海量信息時(shí)代,這些信息大部分是以自然語(yǔ)言表示的。一方面,海量信息也為計算機學(xué)習人類(lèi)語(yǔ)言提供了更多的“素材”;另一方面,這也為NLP提供了更加寬廣的應用舞臺。例如,作為NLP的重要應用,搜索引擎逐漸成為人們獲取信息的重要工具,出現了以谷歌、百度等為代表的搜索引擎巨頭;機器翻譯也從實(shí)驗室走入尋常百姓家;基于自然語(yǔ)言處理的中文輸入法(如搜狗、微軟、谷歌等輸入法)成為計算機用戶(hù)的必備工具;帶有語(yǔ)音識別的計算機和手機也正大行其道,協(xié)助用戶(hù)更有效地生活、工作和學(xué)習。
現在,NLP領(lǐng)域已經(jīng)有了大量的人工標注知識,而深度學(xué)習可以通過(guò)有監督學(xué)習得到相關(guān)的語(yǔ)義知識,這種知識和人類(lèi)總結的知識應該存在某種對應關(guān)系,尤其是在一些淺層語(yǔ)義方面。因為人工標注,本質(zhì)上已經(jīng)給深度學(xué)習提供了學(xué)習的目標;只是深度學(xué)習可以不眠不休地學(xué)習,這種逐步靠攏學(xué)習目標的過(guò)程,可能遠比人類(lèi)總結過(guò)程來(lái)得更快更好。這一點(diǎn),從谷歌公司旗下DeepMind研究團隊開(kāi)發(fā)的圍棋軟件AlphaGo短時(shí)間內連勝兩位人類(lèi)圍棋高手的事實(shí),似乎能夠得到驗證。
深度學(xué)習在NLP中的應用非常廣泛,可以說(shuō)橫掃NLP的各個(gè)應用,從底層的分詞、語(yǔ)言模型、句法分析、語(yǔ)音識別等到高層的語(yǔ)義理解、語(yǔ)用闡釋、對話(huà)管理、知識問(wèn)答等方面都幾乎都有深度學(xué)習的模型,并且取得了不錯的效果。有關(guān)研究已從傳統的機器學(xué)習算法轉變成更有表現力的深度學(xué)習模型,如卷積神經(jīng)網(wǎng)絡(luò )和回歸神經(jīng)網(wǎng)絡(luò )。不過(guò),目前的深度學(xué)習技術(shù)還不具備理解和使用自然語(yǔ)言所必需的概念抽象和邏輯推理能力,還有待今后進(jìn)一步的研究。
互聯(lián)網(wǎng)搜索引擎已經(jīng)有一段時(shí)間讓人們使用會(huì )話(huà)語(yǔ)言和術(shù)語(yǔ)來(lái)在線(xiàn)搜索事物。現在,谷歌公司的云端硬盤(pán)用戶(hù)已經(jīng)可以使用這一功能。用戶(hù)可以搜索存儲在谷歌云端硬盤(pán)中的文件和內容,就像使用谷歌搜索提供的對云端硬盤(pán)內置NLP的新支持一樣。該功能使用戶(hù)可以使用通常用詞組表達的查詢(xún)以及在實(shí)際對話(huà)中將要使用的查詢(xún)來(lái)更輕松地找到所需的內容。谷歌公司在在線(xiàn)和移動(dòng)搜索、移動(dòng)應用程序以及GoogleTranslate等服務(wù)中廣泛使用NLP;該公司在這一領(lǐng)域的研究是為提高機器閱讀和理解人類(lèi)語(yǔ)言能力所做的更廣泛努力的一部分。隨著(zhù)谷歌調整其算法,NLP應該會(huì )隨著(zhù)時(shí)間的推移變得更好。
英國劍橋量子計算公司(CQC)最近宣布,他們利用自然語(yǔ)言的“固有量子”結構,開(kāi)辟了一個(gè)全新的可能應用領(lǐng)域。其通過(guò)將語(yǔ)法句子翻譯成量子線(xiàn)路,然后在量子計算機上實(shí)現生成的程序,并實(shí)際執行問(wèn)答。這是第一次在量子計算機上執行NLP。通過(guò)使用CQC的一流的、平臺無(wú)關(guān)的可重定目標編譯器t|ket??,這些程序在IBM量子計算機上成功執行并得到結果,整個(gè)突破朝著(zhù)實(shí)現“意義感知”和“語(yǔ)法知悉”的NLP方向邁出了有意義的一大步--這是計算機時(shí)代早期以來(lái)計算機科學(xué)家及計算語(yǔ)言學(xué)家追尋的夢(mèng)想。
美國哈佛大學(xué)醫學(xué)院的研究人員借助NLP技術(shù)日前開(kāi)發(fā)出一種工具,可以評估新冠肺炎(COVID-19)患者的病例、社交媒體和健康衛生數據。他們率先努力通過(guò)使用機器學(xué)習技術(shù)查看來(lái)自各種來(lái)源的數據和信息(包括患者記錄、社交媒體和公共衛生數據)來(lái)尋找新冠肺炎病毒的解決方案。借助NLP工具,他們還可以搜索有關(guān)新冠肺炎病毒的在線(xiàn)信息,并了解爆發(fā)的當前位置。另外,研究人員還利用NLP技術(shù)對新冠肺炎、藥物和疫苗等密集展開(kāi)研究,同時(shí)包括臨床診斷與治療以及流行病學(xué)研究等。
中國阿里達摩院的NLP研究團隊最近提出優(yōu)化模型Struct BERT,能讓機器更好地掌握人類(lèi)語(yǔ)法,加深對自然語(yǔ)言的理解。使用該模型好比給機器內置一個(gè)“語(yǔ)法識別器”,使機器在面對語(yǔ)序錯亂或不符合語(yǔ)法習慣的詞句時(shí),仍能準確理解并給出正確的表達和回應,大大提高機器對詞語(yǔ)、句子以及語(yǔ)言整體的理解力。這一技術(shù)已廣泛使用于阿里旗下阿里小蜜、螞蟻金服、優(yōu)酷等業(yè)務(wù)。阿里達摩院的語(yǔ)言模型和閱讀理解技術(shù)也被用于行業(yè)賦能,推進(jìn)AI技術(shù)在醫療、電力、金融等行業(yè)的落地。據悉,StructBERT模型日前被評為全球性能最強的NLP系統。
根據市場(chǎng)分析機構Mordor Intelligence的一份報告,2019年全球NLP市場(chǎng)價(jià)值為109億美元,預計到2025年將達到348億美元,復合年增長(cháng)率為21.5%。該報告指出,在過(guò)去的幾年中,深度學(xué)習架構和算法在市場(chǎng)格局中取得了令人矚目的進(jìn)步,而語(yǔ)音分析解決方案正在主導著(zhù)這一市場(chǎng),因為傳統的基于文本的分析已不足以處理復雜的業(yè)務(wù)問(wèn)題。
總之,隨著(zhù)互聯(lián)網(wǎng)的普及和海量信息的涌現,作為AI領(lǐng)域的關(guān)鍵核心技術(shù),NLP正在人們的生活、工作、學(xué)習中扮演著(zhù)越來(lái)越重要的角色,并將在科技進(jìn)步與社會(huì )發(fā)展的過(guò)程中發(fā)揮越來(lái)越重要的作用。
文/林峰、李炎(作者單位分別為美國波士頓大學(xué)工學(xué)院、普渡大學(xué)科技學(xué)院)