首頁(yè) > 技術(shù) > 技術(shù)文摘 > 中文信息處理的主流技術(shù)是什么?

中文信息處理的主流技術(shù)是什么?

2002-07-08 00:00:00 作者：來(lái)源：評(píng)論：0 點(diǎn)擊：

在自然語(yǔ)言處理（NLP）上，從小規(guī)模受限語(yǔ)言處理走向大規(guī)模真實(shí)文本處理，是一個(gè)意義深遠(yuǎn)的里程碑式的轉(zhuǎn)折。不管經(jīng)過(guò)多少時(shí)間，語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型依然是當(dāng)前中文信息處理的主流技術(shù)。

作者簡(jiǎn)介：

黃昌寧: 1961年畢業(yè)于清華大學(xué)自動(dòng)控制系，現(xiàn)任微軟亞洲研究院高級(jí)研究員兼博士后工作站負(fù)責(zé)人，此前他是清華大學(xué)計(jì)算機(jī)系的教授和博士生導(dǎo)師，長(zhǎng)期領(lǐng)導(dǎo)清華大學(xué)計(jì)算語(yǔ)言學(xué)課題組的科研與教學(xué)工作。

從20世紀(jì)50年代初機(jī)器翻譯課題被提出算起，自然語(yǔ)言處理（NLP）的研發(fā)歷史至少也有50年了。90年代初,NLP的研究目標(biāo)開(kāi)始從小規(guī)模受限語(yǔ)言處理走向大規(guī)模真實(shí)文本處理。把這個(gè)新目標(biāo)正式列入大會(huì)主題的是1990年在赫爾辛基舉行的“第13屆國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)”。那些只有幾百個(gè)詞條和數(shù)十條語(yǔ)法規(guī)則的受限語(yǔ)言分析系統(tǒng)，通常被業(yè)內(nèi)人士戲稱為“玩具”，不可能有什么實(shí)用價(jià)值。政府、企業(yè)和廣大計(jì)算機(jī)用戶期盼的是像漢字輸入、語(yǔ)音聽(tīng)寫(xiě)機(jī)、文-語(yǔ)轉(zhuǎn)換(TTS)、搜索引擎、信息抽取(IE)、信息安全和機(jī)器翻譯（MT）那樣的、有能力處理大規(guī)模真實(shí)文本的實(shí)用化系統(tǒng)。正是基于對(duì)這個(gè)里程碑式轉(zhuǎn)折的關(guān)注，筆者在1993年就列舉了四種大規(guī)模真實(shí)文本處理的應(yīng)用前景:新一代信息檢索系統(tǒng);按客戶要求編輯的報(bào)紙;信息抽取，即把非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化的信息庫(kù);大規(guī)模語(yǔ)料庫(kù)的自動(dòng)標(biāo)注。值得慶幸的是，今天所有這四個(gè)方向都有了實(shí)用化或商品化的成果。

盡管全世界都把大規(guī)模真實(shí)文本處理看做是NLP的一個(gè)戰(zhàn)略目標(biāo)，但這不等于說(shuō)受限領(lǐng)域的機(jī)器翻譯、語(yǔ)音對(duì)話、電話翻譯和其他一些基于深層理解的自然語(yǔ)言分析技術(shù)或理論研究，就不應(yīng)當(dāng)再搞了。目標(biāo)和任務(wù)的多樣化是學(xué)術(shù)界繁榮昌盛的一個(gè)標(biāo)志。問(wèn)題是要考慮清楚NLP的主戰(zhàn)場(chǎng)在哪里，我們的主力應(yīng)當(dāng)部署在哪里。

中文難辦嗎？

談到中文信息處理所面臨的重大應(yīng)用課題，如企業(yè)和廣大計(jì)算機(jī)用戶所期盼的漢字輸入、語(yǔ)音識(shí)別等，大家似乎并沒(méi)有什么分歧。但是當(dāng)討論深入到實(shí)現(xiàn)這些課題的方法或技術(shù)路線時(shí)，分歧馬上就涇渭分明了。第一種意見(jiàn)認(rèn)為，中文信息處理的本質(zhì)是漢語(yǔ)理解，也就是要對(duì)漢語(yǔ)真實(shí)文本實(shí)施句法-語(yǔ)義分析。持這種意見(jiàn)的學(xué)者主張，以往在中文信息處理中使用的概率統(tǒng)計(jì)方法已經(jīng)走到了盡頭，為了在理解或語(yǔ)言層面上解決中文信息處理問(wèn)題，就必須另辟蹊徑，這條蹊徑便是語(yǔ)義學(xué)。據(jù)說(shuō)這是因?yàn)闈h語(yǔ)不同于西方語(yǔ)言，漢語(yǔ)的句法相當(dāng)靈活，漢語(yǔ)本質(zhì)上是一種意合語(yǔ)言等。

與上述意見(jiàn)相對(duì)立的觀點(diǎn)是:前面提到的絕大多數(shù)應(yīng)用系統(tǒng)（MT除外）其實(shí)都是在沒(méi)有句法-語(yǔ)義分析的情況下實(shí)現(xiàn)的，因此談不上“理解”。如果一定要說(shuō)“理解”，那么只是用圖靈實(shí)驗(yàn)來(lái)證實(shí)的所謂“理解”。

上述雙方爭(zhēng)論的焦點(diǎn)是方法，但目標(biāo)和方法通常是密不可分的。如果我們同意把大規(guī)模真實(shí)文本處理作為NLP的戰(zhàn)略目標(biāo)，那么實(shí)現(xiàn)這一目標(biāo)的理論和方法也必然要跟著變化。無(wú)獨(dú)有偶，1992年在蒙特利爾召開(kāi)的“第四屆機(jī)器翻譯的理論和方法國(guó)際會(huì)議(TMI-92)”宣布大會(huì)的主題是“機(jī)器翻譯中的經(jīng)驗(yàn)主義和理性主義方法”。這就是公開(kāi)承認(rèn)，在傳統(tǒng)的基于語(yǔ)言學(xué)和人工智能方法（即理性主義）的NLP技術(shù)以外，還有一種基于語(yǔ)料庫(kù)和統(tǒng)計(jì)語(yǔ)言模型的新方法（即經(jīng)驗(yàn)主義）正在迅速崛起。

NLP的戰(zhàn)略目標(biāo)和相應(yīng)的語(yǔ)料庫(kù)方法都是從國(guó)際學(xué)術(shù)舞臺(tái)的大視野中獲得的，中文信息處理自然也不例外。那種認(rèn)為中文文本處理特別困難，以至要另辟蹊徑的觀點(diǎn)，缺少有說(shuō)服力的事實(shí)根據(jù)。拿信息檢索(IR)來(lái)說(shuō)，它的任務(wù)是從一個(gè)大規(guī)模的文檔庫(kù)中尋找與用戶的查詢相關(guān)的文檔。怎樣表示文檔和查詢的內(nèi)容，以及如何度量文檔和查詢之間的相關(guān)程度，就成為IR技術(shù)需要解決的兩個(gè)基本問(wèn)題。召回率和精確率則是評(píng)價(jià)一個(gè)IR系統(tǒng)的兩個(gè)主要指標(biāo)。由于文檔和查詢都是用自然語(yǔ)言表述的，這個(gè)任務(wù)可以用來(lái)說(shuō)明中文和西方語(yǔ)言所面臨的問(wèn)題和所采用的方法其實(shí)是十分相似的。一般來(lái)說(shuō)，各文種的IR系統(tǒng)都用文檔和查詢中的詞頻(tf)和倒文檔頻率(idf)來(lái)表示文檔和查詢的內(nèi)容，所以本質(zhì)上是一種統(tǒng)計(jì)方法。

世界文本檢索大會(huì)TREC (http://trec.nist.gov/ ) 的最大特點(diǎn)是通過(guò)提供大規(guī)模訓(xùn)練語(yǔ)料和統(tǒng)一評(píng)測(cè)方法來(lái)支持IR技術(shù)的研發(fā)。研究團(tuán)隊(duì)必須通過(guò)大會(huì)的統(tǒng)一評(píng)測(cè)并名列前茅，才能獲準(zhǔn)到會(huì)上來(lái)做報(bào)告。1992年起TREC每年舉辦一屆大會(huì)，并得到美國(guó)國(guó)防部（DARPA）和國(guó)家標(biāo)準(zhǔn)技術(shù)局（NIST）的資助。會(huì)議對(duì)包括中文、日文在內(nèi)的多文種文檔庫(kù)開(kāi)展了IR評(píng)測(cè)。結(jié)果表明，中文IR并沒(méi)有因?yàn)榇嬖诜衷~問(wèn)題就比其他文種做得差，而且迄今沒(méi)有證據(jù)表明各語(yǔ)種的NLP，包括基于概念的或基于句法-語(yǔ)義分析的技術(shù)，能明顯提高IR系統(tǒng)的性能。

什么是主流技術(shù)？

語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型不但沒(méi)有過(guò)時(shí)，而且在可比的統(tǒng)一評(píng)測(cè)中被證明是當(dāng)前各國(guó)語(yǔ)言信息處理的一種主流技術(shù)。

1. N元模型

設(shè)wi是文本中的任意一個(gè)詞，如果已知它在該文本中的前兩個(gè)詞 wi-2w-1，便可以用條件概率P(wi|wi-2w-1)來(lái)預(yù)測(cè)wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語(yǔ)言模型的概念。一般來(lái)說(shuō)，如果用變量W代表文本中一個(gè)任意的詞序列，它由順序排列的n個(gè)詞組成，即W=w1w2...wn，則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式，P(W)可展開(kāi)為：

P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)

不難看出，為了預(yù)測(cè)詞wn的出現(xiàn)概率，必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來(lái)看，這種方法太復(fù)雜了。如果任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有關(guān)，問(wèn)題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型 (tri-gram):

P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)

符號(hào)∏i i=3,...,n P(...) 表示概率的連乘。一般來(lái)說(shuō)，N元模型就是假設(shè)當(dāng)前詞的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過(guò)大規(guī)模語(yǔ)料庫(kù)來(lái)計(jì)算的。比如三元概率有

P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)

式中count(...) 表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。

統(tǒng)計(jì)語(yǔ)言模型有點(diǎn)像天氣預(yù)報(bào)中使用的概率方法，用來(lái)估計(jì)概率參數(shù)的大規(guī)模語(yǔ)料庫(kù)好比是一個(gè)地區(qū)歷年積累起來(lái)的氣象記錄。而用三元模型來(lái)做天氣預(yù)報(bào)，就好比是根據(jù)前兩天的天氣情況來(lái)預(yù)測(cè)今天的天氣。天氣預(yù)報(bào)當(dāng)然不可能百分之百準(zhǔn)確，但是我們大概不會(huì)因此就全盤(pán)否定這種實(shí)用的概率方法吧。

2. 語(yǔ)音識(shí)別

語(yǔ)音識(shí)別作為計(jì)算機(jī)漢字輸入的另一種方式越來(lái)越受到業(yè)內(nèi)人士的青睞。所謂聽(tīng)寫(xiě)機(jī)就是語(yǔ)音識(shí)別的一種商品。那么當(dāng)前商品化的聽(tīng)寫(xiě)機(jī)采用的是什么技術(shù)呢？

其實(shí)，語(yǔ)音識(shí)別任務(wù)可視為對(duì)以下條件概率極大值的計(jì)算問(wèn)題：

W*= argmaxW P(W|speech signal)

= argmaxW P(speech signal|W) P(W) / P(speech signal)

= argmaxW P(speech signal|W) P(W)

式中數(shù)學(xué)符號(hào)argmaxW 表示對(duì)不同的候選詞序列W計(jì)算條件概率P(W|speech signal)的值，從而使W*成為條件概率值最大的詞序列。它也就是當(dāng)前輸入語(yǔ)音信號(hào)speech signal所對(duì)應(yīng)的輸出詞串了。

公式第二行是利用貝葉斯定律轉(zhuǎn)寫(xiě)的結(jié)果，因?yàn)闂l件概率P(speech signal|W)比較容易估值。公式的分母P(speech signa ) 對(duì)給定的語(yǔ)音信號(hào)是一個(gè)常數(shù)，不影響極大值的計(jì)算，故可以從公式中刪除。在公式第三行所示的結(jié)果中，P(W)叫做統(tǒng)計(jì)語(yǔ)言模型；P(speech signal|W) 叫做聲學(xué)模型。

據(jù)調(diào)查，目前市場(chǎng)上中文和英文的聽(tīng)寫(xiě)機(jī)產(chǎn)品都是用詞的三元模型實(shí)現(xiàn)的, 幾乎完全不用句法-語(yǔ)義分析手段。這說(shuō)明不同語(yǔ)言的產(chǎn)品技術(shù)往往是相通的。沒(méi)有證據(jù)表明，中、英兩種語(yǔ)言的聽(tīng)寫(xiě)機(jī)在性能指標(biāo)上有顯著的差異。所以那種斷言中文信息處理一定比西方語(yǔ)言困難，實(shí)現(xiàn)中文信息處理必須另辟蹊徑的說(shuō)法，其實(shí)是站不住腳的。

三元模型（或一般的N元模型）只利用了語(yǔ)言的表層信息（或知識(shí)），即符號(hào)（字、詞、詞性標(biāo)記等）序列的同現(xiàn)信息。誰(shuí)也沒(méi)有說(shuō)它是十全十美的。在這一領(lǐng)域中，下一個(gè)研究目標(biāo)應(yīng)當(dāng)是結(jié)構(gòu)化對(duì)象（如句法樹(shù)或語(yǔ)義框架）的統(tǒng)計(jì)模型。當(dāng)然能做到語(yǔ)言理解是了不起的成果，它肯定會(huì)比目前這種統(tǒng)計(jì)語(yǔ)言模型強(qiáng)得多，這是不爭(zhēng)的事實(shí)。問(wèn)題是目前國(guó)內(nèi)外還沒(méi)有哪一種語(yǔ)言的句法-語(yǔ)義分析系統(tǒng)可以勝任大規(guī)模真實(shí)文本處理的重任。因此，對(duì)于世界各國(guó)的語(yǔ)言來(lái)說(shuō)，當(dāng)前的主流技術(shù)仍是語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型。

3. 詞性標(biāo)注

至少像短語(yǔ)結(jié)構(gòu)文法這樣一類的語(yǔ)法規(guī)則是建立在詞類基礎(chǔ)上的。無(wú)怪乎語(yǔ)言學(xué)界有句行話說(shuō)，沒(méi)有詞類就沒(méi)法講語(yǔ)法了。所以在自然語(yǔ)言的句法分析過(guò)程中，大概都有一個(gè)詞性標(biāo)注的階段。不難理解，漢語(yǔ)的自動(dòng)分詞和詞性標(biāo)注的精確率，將直接影響到后續(xù)的句法分析結(jié)果。據(jù)觀察，在漢語(yǔ)句法分析結(jié)果中，有高達(dá)60%的分析錯(cuò)誤來(lái)源于分詞和詞性標(biāo)注的錯(cuò)誤。

在英語(yǔ)的詞庫(kù)中約 14% 的詞形(type)具有不只一個(gè)詞性，而在一個(gè)語(yǔ)料庫(kù)中，總詞次數(shù)(tockens)中約 30% 是兼類詞。從這個(gè)統(tǒng)計(jì)數(shù)字中可以估計(jì)出詞性標(biāo)注任務(wù)的難度。歷史上曾經(jīng)先后出現(xiàn)過(guò)兩個(gè)方法迥異的英語(yǔ)詞性標(biāo)注系統(tǒng)：TAGGIT系統(tǒng)擁有3000條上下文相關(guān)規(guī)則，而CLAWS系統(tǒng)完全采用概率統(tǒng)計(jì)方法。兩個(gè)系統(tǒng)各自完成了100萬(wàn)詞次的英語(yǔ)語(yǔ)料庫(kù)的自動(dòng)詞性標(biāo)注任務(wù)。評(píng)則結(jié)果（見(jiàn)下表）表明，采用概率統(tǒng)計(jì)方法的CLAWS系統(tǒng)的標(biāo)注精度達(dá)到96%，比TAGGIT系統(tǒng)提高了近20個(gè)百分點(diǎn)。經(jīng)過(guò)改進(jìn)的CLAWS系統(tǒng)日后承擔(dān)了英國(guó)國(guó)家語(yǔ)料庫(kù)BNC一億條英語(yǔ)詞的詞性標(biāo)注任務(wù)。

具體來(lái)說(shuō)，CLAWS系統(tǒng)采用的是詞類標(biāo)記的二元模型。如果令 C = c1...cn 和 W = w1...wn分別代表詞類標(biāo)記序列和詞序列，則詞性標(biāo)注任務(wù)可視為在已知詞序列W的情況下，計(jì)算如下條件概率極大值的問(wèn)題：

C*= argmaxC P(C|W)

= argmaxC P(W|C)P(C) / P(W)

≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )

P(C|W) 表示：已知輸入詞序列W的情況下，出現(xiàn)詞類標(biāo)記序列C的條件概率。數(shù)學(xué)符號(hào)argmaxC 表示通過(guò)考察不同的候選詞類標(biāo)記序列C, 來(lái)尋找使條件概率P(C|W) 取最大值的那個(gè)詞序列W*。后者應(yīng)當(dāng)就是對(duì)W的詞性標(biāo)注結(jié)果。

公式第二行是利用貝葉斯定律轉(zhuǎn)寫(xiě)的結(jié)果，由于分母P(W) 對(duì)給定的W是一個(gè)常數(shù)，不影響極大值的計(jì)算，故可以從公式中刪除。接著對(duì)公式進(jìn)行近似。首先，引入獨(dú)立性假設(shè)，認(rèn)為詞序列中的任意一個(gè)詞wi的出現(xiàn)概率近似，只同當(dāng)前詞的詞性標(biāo)記ci有關(guān)，而與周圍（上下文）的詞類標(biāo)記無(wú)關(guān)。即詞匯概率

P(W|C) ≈ ∏i i=1,...,nP(wi|ci )

其次，采用二元假設(shè)，即近似認(rèn)為任意詞類標(biāo)記 ci的出現(xiàn)概率只同它緊鄰的前一個(gè)詞類標(biāo)記ci-1有關(guān)。因此有:

P(C) ≈∏i i=,...,n P(ci|ci-1)

P(ci|ci-1) 是詞類標(biāo)記的轉(zhuǎn)移概率，也叫做二元模型。

上述這兩個(gè)概率參數(shù)也都可以通過(guò)帶詞性標(biāo)記的語(yǔ)料庫(kù)來(lái)分別估計(jì)：

P(wi|ci) ≈ count(wi,ci) / count(ci)

P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)

順便指出，國(guó)內(nèi)外學(xué)者用詞類標(biāo)記的二元或三元模型實(shí)現(xiàn)的中、英文詞性自動(dòng)標(biāo)注都達(dá)到了約95%的標(biāo)注精確率。

評(píng)測(cè)為什么是惟一的評(píng)判標(biāo)準(zhǔn)

有評(píng)測(cè)才會(huì)有鑒別。評(píng)判一種方法優(yōu)劣的惟一標(biāo)準(zhǔn)是相互可比的評(píng)測(cè)，而不是設(shè)計(jì)人員自己設(shè)計(jì)的“自評(píng)”，更不是人們的直覺(jué)或某個(gè)人的“遠(yuǎn)見(jiàn)”。近年來(lái)，在語(yǔ)言信息處理領(lǐng)域，通過(guò)評(píng)測(cè)來(lái)推動(dòng)科學(xué)技術(shù)進(jìn)步的范例很多。國(guó)家“863計(jì)劃”智能計(jì)算機(jī)專家組曾對(duì)語(yǔ)音識(shí)別、漢字（印刷體和手寫(xiě)體）識(shí)別、文本自動(dòng)分詞、詞性自動(dòng)標(biāo)注、自動(dòng)文摘和機(jī)器翻譯譯文質(zhì)量等課題進(jìn)行過(guò)多次有統(tǒng)一測(cè)試數(shù)據(jù)和統(tǒng)一計(jì)分方法的全國(guó)性評(píng)測(cè)，對(duì)促進(jìn)這些領(lǐng)域的技術(shù)進(jìn)步發(fā)揮了非常積極的作用。

在國(guó)際上，美國(guó)國(guó)防部先后發(fā)起的TIPSTER 和 TIDES兩個(gè)和語(yǔ)言信息處理相關(guān)的計(jì)劃，就被稱為“評(píng)測(cè)驅(qū)動(dòng)的計(jì)劃”。它們?cè)谛畔z索(TREC)、信息抽�。∕UC）、命名實(shí)體識(shí)別（MET-2）等研究課題上，既提供大規(guī)模的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料，又提供統(tǒng)一的計(jì)分方法和評(píng)測(cè)軟件，以保證每個(gè)研究小組都能在一種公平、公開(kāi)的條件下進(jìn)行研究方法的探討，推動(dòng)科學(xué)技術(shù)的進(jìn)步。TREC、MUC和MET-2等會(huì)議所組織的多文種評(píng)比活動(dòng)也有力地說(shuō)明，其他語(yǔ)言采用并證明有效的方法，對(duì)中文也一樣適用，不同文種應(yīng)用系統(tǒng)的性能指標(biāo)大體相當(dāng)。固然，每種語(yǔ)言都有它自己的個(gè)性，然而這些個(gè)性不應(yīng)當(dāng)被用來(lái)否定語(yǔ)言的共性，并在事實(shí)不足的情況下做出錯(cuò)誤的判斷。

為了推動(dòng)中文信息處理的發(fā)展，讓我們拿起評(píng)測(cè)這個(gè)武器，扎扎實(shí)實(shí)地研究其適用技術(shù)，不要再想當(dāng)然了。建議政府科研主管部門在制定項(xiàng)目計(jì)劃時(shí)，至少要在一個(gè)項(xiàng)目的總經(jīng)費(fèi)中拿出10%左右的撥款用于資助該項(xiàng)目的評(píng)測(cè)。沒(méi)有統(tǒng)一評(píng)測(cè)的研究成果，終究不是完全可信的。

計(jì)算機(jī)世界報(bào)

相關(guān)熱詞搜索：

上一篇:CTI走向融合

下一篇:視頻技術(shù)在司法系統(tǒng)的應(yīng)用

相關(guān)閱讀：

分享到：