• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 技術(shù) > 技術(shù)文摘 > 中文信息處理的主流技術(shù)是什么?

    中文信息處理的主流技術(shù)是什么?

    2002-07-08 00:00:00   作者:   來(lái)源:   評論:0 點(diǎn)擊:


     

    在自然語(yǔ)言處理(NLP)上,從小規模受限語(yǔ)言處理走向大規模真實(shí)文本處理,是一個(gè)意義深遠的里程碑式的轉折。 不管經(jīng)過(guò)多少時(shí)間,語(yǔ)料庫方法和統計語(yǔ)言模型依然是當前中文信息處理的主流技術(shù)。

    作者簡(jiǎn)介:

    黃昌寧: 1961年畢業(yè)于清華大學(xué)自動(dòng)控制系,現任微軟亞洲研究院高級研究員兼博士后工作站負責人,此前他是清華大學(xué)計算機系的教授和博士生導師,長(cháng)期領(lǐng)導清華大學(xué)計算語(yǔ)言學(xué)課題組的科研與教學(xué)工作。

    從20世紀50年代初機器翻譯課題被提出算起,自然語(yǔ)言處理(NLP)的研發(fā)歷史至少也有50年了。90年代初,NLP的研究目標開(kāi)始從小規模受限語(yǔ)言處理走向大規模真實(shí)文本處理。把這個(gè)新目標正式列入大會(huì )主題的是1990年在赫爾辛基舉行的“第13屆國際計算語(yǔ)言學(xué)大會(huì )”。那些只有幾百個(gè)詞條和數十條語(yǔ)法規則的受限語(yǔ)言分析系統,通常被業(yè)內人士戲稱(chēng)為“玩具”,不可能有什么實(shí)用價(jià)值。政府、企業(yè)和廣大計算機用戶(hù)期盼的是像漢字輸入、語(yǔ)音聽(tīng)寫(xiě)機、文-語(yǔ)轉換(TTS)、搜索引擎、信息抽取(IE)、信息安全和機器翻譯(MT)那樣的、有能力處理大規模真實(shí)文本的實(shí)用化系統。 正是基于對這個(gè)里程碑式轉折的關(guān)注,筆者在1993年就列舉了四種大規模真實(shí)文本處理的應用前景:新一代信息檢索系統;按客戶(hù)要求編輯的報紙;信息抽取,即把非結構化的文本轉化為結構化的信息庫;大規模語(yǔ)料庫的自動(dòng)標注。值得慶幸的是,今天所有這四個(gè)方向都有了實(shí)用化或商品化的成果。

    盡管全世界都把大規模真實(shí)文本處理看做是NLP的一個(gè)戰略目標,但這不等于說(shuō)受限領(lǐng)域的機器翻譯、語(yǔ)音對話(huà)、電話(huà)翻譯和其他一些基于深層理解的自然語(yǔ)言分析技術(shù)或理論研究,就不應當再搞了。目標和任務(wù)的多樣化是學(xué)術(shù)界繁榮昌盛的一個(gè)標志。問(wèn)題是要考慮清楚NLP的主戰場(chǎng)在哪里,我們的主力應當部署在哪里。

    中文難辦嗎?

    談到中文信息處理所面臨的重大應用課題,如企業(yè)和廣大計算機用戶(hù)所期盼的漢字輸入、語(yǔ)音識別等,大家似乎并沒(méi)有什么分歧。但是當討論深入到實(shí)現這些課題的方法或技術(shù)路線(xiàn)時(shí),分歧馬上就涇渭分明了。第一種意見(jiàn)認為,中文信息處理的本質(zhì)是漢語(yǔ)理解,也就是要對漢語(yǔ)真實(shí)文本實(shí)施句法-語(yǔ)義分析。持這種意見(jiàn)的學(xué)者主張,以往在中文信息處理中使用的概率統計方法已經(jīng)走到了盡頭,為了在理解或語(yǔ)言層面上解決中文信息處理問(wèn)題,就必須另辟蹊徑,這條蹊徑便是語(yǔ)義學(xué)。據說(shuō)這是因為漢語(yǔ)不同于西方語(yǔ)言,漢語(yǔ)的句法相當靈活,漢語(yǔ)本質(zhì)上是一種意合語(yǔ)言等。

    與上述意見(jiàn)相對立的觀(guān)點(diǎn)是:前面提到的絕大多數應用系統(MT除外)其實(shí)都是在沒(méi)有句法-語(yǔ)義分析的情況下實(shí)現的,因此談不上“理解”。 如果一定要說(shuō)“理解”,那么只是用圖靈實(shí)驗來(lái)證實(shí)的所謂“理解”。

    上述雙方爭論的焦點(diǎn)是方法,但目標和方法通常是密不可分的。如果我們同意把大規模真實(shí)文本處理作為NLP的戰略目標,那么實(shí)現這一目標的理論和方法也必然要跟著(zhù)變化。無(wú)獨有偶,1992年在蒙特利爾召開(kāi)的“第四屆機器翻譯的理論和方法國際會(huì )議(TMI-92)”宣布大會(huì )的主題是“機器翻譯中的經(jīng)驗主義和理性主義方法”。這就是公開(kāi)承認,在傳統的基于語(yǔ)言學(xué)和人工智能方法(即理性主義)的NLP技術(shù)以外,還有一種基于語(yǔ)料庫和統計語(yǔ)言模型的新方法(即經(jīng)驗主義)正在迅速崛起。

    NLP的戰略目標和相應的語(yǔ)料庫方法都是從國際學(xué)術(shù)舞臺的大視野中獲得的,中文信息處理自然也不例外。那種認為中文文本處理特別困難,以至要另辟蹊徑的觀(guān)點(diǎn),缺少有說(shuō)服力的事實(shí)根據。拿信息檢索(IR)來(lái)說(shuō),它的任務(wù)是從一個(gè)大規模的文檔庫中尋找與用戶(hù)的查詢(xún)相關(guān)的文檔。怎樣表示文檔和查詢(xún)的內容,以及如何度量文檔和查詢(xún)之間的相關(guān)程度,就成為IR技術(shù)需要解決的兩個(gè)基本問(wèn)題。召回率和精確率則是評價(jià)一個(gè)IR系統的兩個(gè)主要指標。由于文檔和查詢(xún)都是用自然語(yǔ)言表述的,這個(gè)任務(wù)可以用來(lái)說(shuō)明中文和西方語(yǔ)言所面臨的問(wèn)題和所采用的方法其實(shí)是十分相似的。一般來(lái)說(shuō),各文種的IR系統都用文檔和查詢(xún)中的詞頻(tf)和倒文檔頻率(idf)來(lái)表示文檔和查詢(xún)的內容,所以本質(zhì)上是一種統計方法。

    世界文本檢索大會(huì )TREC (http://trec.nist.gov/ ) 的最大特點(diǎn)是通過(guò)提供大規模訓練語(yǔ)料和統一評測方法來(lái)支持IR技術(shù)的研發(fā)。研究團隊必須通過(guò)大會(huì )的統一評測并名列前茅,才能獲準到會(huì )上來(lái)做報告。1992年起TREC每年舉辦一屆大會(huì ),并得到美國國防部(DARPA)和國家標準技術(shù)局(NIST)的資助。會(huì )議對包括中文、日文在內的多文種文檔庫開(kāi)展了IR評測。結果表明,中文IR并沒(méi)有因為存在分詞問(wèn)題就比其他文種做得差,而且迄今沒(méi)有證據表明各語(yǔ)種的NLP,包括基于概念的或基于句法-語(yǔ)義分析的技術(shù),能明顯提高IR系統的性能。

    什么是主流技術(shù)?

    語(yǔ)料庫方法和統計語(yǔ)言模型不但沒(méi)有過(guò)時(shí),而且在可比的統一評測中被證明是當前各國語(yǔ)言信息處理的一種主流技術(shù)。

    1. N元模型

    設wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞 wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來(lái)預測wi出現的概率。這就是統計語(yǔ)言模型的概念。一般來(lái)說(shuō),如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2...wn,則統計語(yǔ)言模型就是該詞序列W在文本中出現的概率P(W)。利用概率的乘積公式,P(W)可展開(kāi)為:

    P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)

    不難看出,為了預測詞wn的出現概率,必須知道它前面所有詞的出現概率。從計算上來(lái)看,這種方法太復雜了。如果任意一個(gè)詞wi的出現概率只同它前面的兩個(gè)詞有關(guān),問(wèn)題就可以得到極大的簡(jiǎn)化。 這時(shí)的語(yǔ)言模型叫做三元模型 (tri-gram):

    P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)

    符號∏i i=3,...,n P(...) 表示概率的連乘。一般來(lái)說(shuō),N元模型就是假設當前詞的出現概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數都是可以通過(guò)大規模語(yǔ)料庫來(lái)計算的。比如三元概率有

    P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)

    式中count(...) 表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫中出現的累計次數。

    統計語(yǔ)言模型有點(diǎn)像天氣預報中使用的概率方法,用來(lái)估計概率參數的大規模語(yǔ)料庫好比是一個(gè)地區歷年積累起來(lái)的氣象記錄。而用三元模型來(lái)做天氣預報,就好比是根據前兩天的天氣情況來(lái)預測今天的天氣。天氣預報當然不可能百分之百準確,但是我們大概不會(huì )因此就全盤(pán)否定這種實(shí)用的概率方法吧。

    2. 語(yǔ)音識別

    語(yǔ)音識別作為計算機漢字輸入的另一種方式越來(lái)越受到業(yè)內人士的青睞。所謂聽(tīng)寫(xiě)機就是語(yǔ)音識別的一種商品。那么當前商品化的聽(tīng)寫(xiě)機采用的是什么技術(shù)呢?

    其實(shí),語(yǔ)音識別任務(wù)可視為對以下條件概率極大值的計算問(wèn)題:

    W*= argmaxW P(W|speech signal)

    = argmaxW P(speech signal|W) P(W) / P(speech signal)

    = argmaxW P(speech signal|W) P(W)

    式中數學(xué)符號argmaxW 表示對不同的候選詞序列W計算條件概率P(W|speech signal)的值,從而使W*成為條件概率值最大的詞序列。它也就是當前輸入語(yǔ)音信號speech signal所對應的輸出詞串了。

    公式第二行是利用貝葉斯定律轉寫(xiě)的結果,因為條件概率P(speech signal|W)比較容易估值。公式的分母P(speech signa ) 對給定的語(yǔ)音信號是一個(gè)常數,不影響極大值的計算,故可以從公式中刪除。在公式第三行所示的結果中,P(W)叫做統計語(yǔ)言模型;P(speech signal|W) 叫做聲學(xué)模型。

    據調查,目前市場(chǎng)上中文和英文的聽(tīng)寫(xiě)機產(chǎn)品都是用詞的三元模型實(shí)現的, 幾乎完全不用句法-語(yǔ)義分析手段。這說(shuō)明不同語(yǔ)言的產(chǎn)品技術(shù)往往是相通的。沒(méi)有證據表明,中、英兩種語(yǔ)言的聽(tīng)寫(xiě)機在性能指標上有顯著(zhù)的差異。所以那種斷言中文信息處理一定比西方語(yǔ)言困難,實(shí)現中文信息處理必須另辟蹊徑的說(shuō)法,其實(shí)是站不住腳的。

    三元模型(或一般的N元模型)只利用了語(yǔ)言的表層信息(或知識),即符號(字、詞、詞性標記等)序列的同現信息。誰(shuí)也沒(méi)有說(shuō)它是十全十美的。在這一領(lǐng)域中,下一個(gè)研究目標應當是結構化對象(如句法樹(shù)或語(yǔ)義框架)的統計模型。當然能做到語(yǔ)言理解是了不起的成果,它肯定會(huì )比目前這種統計語(yǔ)言模型強得多,這是不爭的事實(shí)。問(wèn)題是目前國內外還沒(méi)有哪一種語(yǔ)言的句法-語(yǔ)義分析系統可以勝任大規模真實(shí)文本處理的重任。因此,對于世界各國的語(yǔ)言來(lái)說(shuō),當前的主流技術(shù)仍是語(yǔ)料庫方法和統計語(yǔ)言模型。

    3. 詞性標注

    至少像短語(yǔ)結構文法這樣一類(lèi)的語(yǔ)法規則是建立在詞類(lèi)基礎上的。無(wú)怪乎語(yǔ)言學(xué)界有句行話(huà)說(shuō),沒(méi)有詞類(lèi)就沒(méi)法講語(yǔ)法了。所以在自然語(yǔ)言的句法分析過(guò)程中,大概都有一個(gè)詞性標注的階段。不難理解,漢語(yǔ)的自動(dòng)分詞和詞性標注的精確率,將直接影響到后續的句法分析結果。據觀(guān)察,在漢語(yǔ)句法分析結果中,有高達60%的分析錯誤來(lái)源于分詞和詞性標注的錯誤。

    在英語(yǔ)的詞庫中約 14% 的詞形(type)具有不只一個(gè)詞性,而在一個(gè)語(yǔ)料庫中,總詞次數(tockens)中約 30% 是兼類(lèi)詞。從這個(gè)統計數字中可以估計出詞性標注任務(wù)的難度。歷史上曾經(jīng)先后出現過(guò)兩個(gè)方法迥異的英語(yǔ)詞性標注系統:TAGGIT系統擁有3000條上下文相關(guān)規則, 而CLAWS系統完全采用概率統計方法。兩個(gè)系統各自完成了100萬(wàn)詞次的英語(yǔ)語(yǔ)料庫的自動(dòng)詞性標注任務(wù)。評則結果(見(jiàn)下表)表明,采用概率統計方法的CLAWS系統的標注精度達到96%,比TAGGIT系統提高了近20個(gè)百分點(diǎn)。經(jīng)過(guò)改進(jìn)的CLAWS系統日后承擔了英國國家語(yǔ)料庫BNC一億條英語(yǔ)詞的詞性標注任務(wù)。

    具體來(lái)說(shuō),CLAWS系統采用的是詞類(lèi)標記的二元模型。如果令 C = c1...cn 和 W = w1...wn分別代表詞類(lèi)標記序列和詞序列,則詞性標注任務(wù)可視為在已知詞序列W的情況下,計算如下條件概率極大值的問(wèn)題:

    C*= argmaxC P(C|W)

    = argmaxC P(W|C)P(C) / P(W)

    ≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )

    P(C|W) 表示:已知輸入詞序列W的情況下,出現詞類(lèi)標記序列C的條件概率。數學(xué)符號argmaxC 表示通過(guò)考察不同的候選詞類(lèi)標記序列C, 來(lái)尋找使條件概率P(C|W) 取最大值的那個(gè)詞序列W*。后者應當就是對W的詞性標注結果。

    公式第二行是利用貝葉斯定律轉寫(xiě)的結果,由于分母P(W) 對給定的W是一個(gè)常數,不影響極大值的計算,故可以從公式中刪除。接著(zhù)對公式進(jìn)行近似。首先,引入獨立性假設,認為詞序列中的任意一個(gè)詞wi的出現概率近似,只同當前詞的詞性標記ci有關(guān),而與周?chē)ㄉ舷挛模┑脑~類(lèi)標記無(wú)關(guān)。即詞匯概率

    P(W|C) ≈ ∏i i=1,...,nP(wi|ci )

    其次,采用二元假設,即近似認為任意詞類(lèi)標記 ci的出現概率只同它緊鄰的前一個(gè)詞類(lèi)標記ci-1有關(guān)。因此有:

    P(C) ≈∏i i=,...,n P(ci|ci-1)

    P(ci|ci-1) 是詞類(lèi)標記的轉移概率,也叫做二元模型。

    上述這兩個(gè)概率參數也都可以通過(guò)帶詞性標記的語(yǔ)料庫來(lái)分別估計:

    P(wi|ci) ≈ count(wi,ci) / count(ci)

    P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)

    順便指出,國內外學(xué)者用詞類(lèi)標記的二元或三元模型實(shí)現的中、英文詞性自動(dòng)標注都達到了約95%的標注精確率。

    評測為什么是惟一的評判標準

    有評測才會(huì )有鑒別。評判一種方法優(yōu)劣的惟一標準是相互可比的評測,而不是設計人員自己設計的“自評”,更不是人們的直覺(jué)或某個(gè)人的“遠見(jiàn)”。近年來(lái),在語(yǔ)言信息處理領(lǐng)域,通過(guò)評測來(lái)推動(dòng)科學(xué)技術(shù)進(jìn)步的范例很多。國家“863計劃”智能計算機專(zhuān)家組曾對語(yǔ)音識別、漢字(印刷體和手寫(xiě)體)識別、文本自動(dòng)分詞、詞性自動(dòng)標注、自動(dòng)文摘和機器翻譯譯文質(zhì)量等課題進(jìn)行過(guò)多次有統一測試數據和統一計分方法的全國性評測,對促進(jìn)這些領(lǐng)域的技術(shù)進(jìn)步發(fā)揮了非常積極的作用。

    在國際上,美國國防部先后發(fā)起的TIPSTER 和 TIDES兩個(gè)和語(yǔ)言信息處理相關(guān)的計劃,就被稱(chēng)為“評測驅動(dòng)的計劃”。它們在信息檢索(TREC)、信息抽取(MUC)、命名實(shí)體識別(MET-2)等研究課題上,既提供大規模的訓練語(yǔ)料和測試語(yǔ)料,又提供統一的計分方法和評測軟件,以保證每個(gè)研究小組都能在一種公平、公開(kāi)的條件下進(jìn)行研究方法的探討,推動(dòng)科學(xué)技術(shù)的進(jìn)步。TREC、MUC和MET-2等會(huì )議所組織的多文種評比活動(dòng)也有力地說(shuō)明,其他語(yǔ)言采用并證明有效的方法,對中文也一樣適用,不同文種應用系統的性能指標大體相當。固然,每種語(yǔ)言都有它自己的個(gè)性,然而這些個(gè)性不應當被用來(lái)否定語(yǔ)言的共性,并在事實(shí)不足的情況下做出錯誤的判斷。

    為了推動(dòng)中文信息處理的發(fā)展,讓我們拿起評測這個(gè)武器,扎扎實(shí)實(shí)地研究其適用技術(shù),不要再想當然了。建議政府科研主管部門(mén)在制定項目計劃時(shí),至少要在一個(gè)項目的總經(jīng)費中拿出10%左右的撥款用于資助該項目的評測。沒(méi)有統一評測的研究成果,終究不是完全可信的。

    計算機世界報

    相關(guān)熱詞搜索:

    上一篇:CTI走向融合

    下一篇:視頻技術(shù)在司法系統的應用

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 侯马市| 卢龙县| 台南县| 黑山县| 石阡县| 湘阴县| 望奎县| 南岸区| 郓城县| 三江| 紫阳县| 蓬莱市| 临潭县| 苍南县| 庆阳市| 民权县| 巧家县| 兴隆县| 闵行区| 茌平县| 长葛市| 师宗县| 天全县| 曲靖市| 嘉禾县| 台前县| 贡山| 麦盖提县| 大安市| 嘉兴市| 会泽县| 丹东市| 乐山市| 修水县| 台南县| 固镇县| 库车县| 望都县| 中宁县| 玛多县| 黔西| http://444 http://444 http://444 http://444 http://444 http://444