首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

回歸到“通天塔”之前
——語(yǔ)音翻譯技術(shù)和應用展望

徐波 2002/03/11

  西方圣經(jīng)上“通天塔”和 “巴別塔”的故事路人皆知,其目的就是為了說(shuō)明人類(lèi)溝通的重要性。事實(shí)上,人類(lèi)一直在尋找克服語(yǔ)言障礙的途徑:先是翻譯,再是世界語(yǔ),直到目前的自動(dòng)翻譯。甚至還有人提出,隨著(zhù)語(yǔ)言的逐漸消融,最終將回歸到造“通天塔”之前天下人的語(yǔ)言都一樣的原始狀態(tài),徹底掃除語(yǔ)言障礙。

作者簡(jiǎn)介:

  徐波 1988年畢業(yè)于浙江大學(xué),此后在中科院自動(dòng)化所從事語(yǔ)音、語(yǔ)言信息處理和識別等方面的研究,于1992年和1997年分別獲得工學(xué)碩士和博士學(xué)位,1997年被破格提升為該所研究員、博士生導師。現任國家模式識別重點(diǎn)實(shí)驗室副主任、口語(yǔ)信息處理研究組組長(cháng)、清華大學(xué)信息學(xué)院客座教授、中國中文信息處理學(xué)會(huì )常務(wù)理事、YOCSEF學(xué)術(shù)委員會(huì )委員、中國聲學(xué)學(xué)會(huì )和中國自動(dòng)化學(xué)會(huì )委員及《自動(dòng)化學(xué)報》編委。目前主要的研究方向包括語(yǔ)音識別的魯棒性問(wèn)題、口語(yǔ)理解、智能搜索、人機對話(huà)、口語(yǔ)的統計翻譯等。

  計算技術(shù)的發(fā)展為機器代替人從事翻譯工作、最終消除人類(lèi)交流障礙打開(kāi)了希望之門(mén)。這個(gè)思路可以追溯到1945年,當時(shí)信息論的先驅W(xué)arren Weaver就認為語(yǔ)言的翻譯過(guò)程可以抽象成編碼和解碼過(guò)程,這種思想其實(shí)就是機器翻譯的基石,并提出了機器翻譯的可計算性。不過(guò)要從理論上證明機器翻譯完全可計算并不是一件容易的事情,50年自動(dòng)翻譯的發(fā)展也表明,從實(shí)踐上證明其可計算性同樣非常困難。針對機器翻譯的現狀,有人挖苦地說(shuō):“MT,不是Machine Translation的縮寫(xiě),而是Mad Translation的縮寫(xiě)。”這雖然有些極端,但真實(shí)地道出了實(shí)現自動(dòng)翻譯有多難。

領(lǐng)域限定更可行

  既然無(wú)領(lǐng)域限制的自動(dòng)翻譯是如此之難,那限定領(lǐng)域的自動(dòng)翻譯是否可行?20世紀80年代以來(lái),自動(dòng)翻譯技術(shù)的一個(gè)分支就是著(zhù)手把機器翻譯和語(yǔ)音識別、語(yǔ)音合成相結合,進(jìn)行直接的口語(yǔ)翻譯,這方面的研究首先起源于對語(yǔ)音識別技術(shù)的研究。2000年,在北京召開(kāi)的口語(yǔ)信息處理國際會(huì )議(ICSLP2000)上,就把“新世紀跨語(yǔ)言的口語(yǔ)交流(Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century)”作為大會(huì )的主題。

  計算機的口語(yǔ)信息處理不僅僅是人機交互的強大工具,也是使用不同語(yǔ)言的人群之間交流的強大工具。與書(shū)面語(yǔ)言翻譯相比,語(yǔ)音翻譯在限定場(chǎng)景下的口語(yǔ)交流上更具優(yōu)勢,例如機場(chǎng)、海關(guān)、旅館咨詢(xún)、購物、餐館對話(huà)、旅游觀(guān)光、娛樂(lè )、天氣預報、公共交通等場(chǎng)景中的交流。對其中的巨大市場(chǎng)需求,人們已達成共識。另一方面,語(yǔ)音翻譯比文本翻譯更加復雜和艱難,系統要面對從語(yǔ)音識別、機器翻譯到語(yǔ)音合成的所有難題。所以,語(yǔ)音翻譯對應用領(lǐng)域進(jìn)行限制很自然,這意味著(zhù)我們可以用一些針對性較強的翻譯方法來(lái)完成語(yǔ)音翻譯的目標,而不必過(guò)分追求系統的通用性。

  翻譯方法需綜合

  在有明確限定的領(lǐng)域中,語(yǔ)音識別技術(shù)一般能取得比較高的準確率。只要收集的樣本能對限定領(lǐng)域的語(yǔ)言現象有比較好的覆蓋,翻譯方法特別是基于經(jīng)驗主義的翻譯方法,就會(huì )非常適用。最典型的經(jīng)驗主義方法是基于實(shí)例或模板的方法,其基本思想是研究語(yǔ)料庫中出現的句型,然后進(jìn)行通用化處理,并建立一個(gè)句型庫,在翻譯的時(shí)候,通過(guò)匹配庫中的模板就可以獲得可靠性較高的翻譯。

  另一種更加高級的模型是基于雙語(yǔ)語(yǔ)料的統計方法,這種方法從研究雙語(yǔ)語(yǔ)料句對之間的對位關(guān)系開(kāi)始。下圖中的例句表示了在詞匯層和短語(yǔ)層的混合對位。

  從圖中可以看出,互譯句對之間存在著(zhù)不同層次上的對應關(guān)系,通過(guò)統計的方法,可算出中文和英文詞匯之間的翻譯概率,以及位置關(guān)系對翻譯概率的影響,最終可通過(guò)純數學(xué)的方法來(lái)實(shí)現翻譯過(guò)程。該方法目前在雙語(yǔ)的口語(yǔ)翻譯中逐步成為一種主流方法。在對德國的Verbmobil項目第二階段的完整評估中,一共測試了四種方法,分別是基于轉換的翻譯、基于對話(huà)意圖的翻譯、基于實(shí)例的翻譯和基于統計的翻譯。由于基于統計的翻譯對語(yǔ)音識別錯誤具有較好的容錯性,加上統計學(xué)的大量?jì)?yōu)點(diǎn),使其翻譯錯誤率還不到其他方法的一半。

  當然統計方法也有缺點(diǎn),它缺少語(yǔ)言知識和結構信息,因而需要與其他方法結合使用,例如與基于實(shí)例的翻譯方法相結合。這樣不僅可以考慮句子的整體結構,還可以利用語(yǔ)言語(yǔ)法結構的統計信息。

  此外,找到適當的中間語(yǔ)言一直是自動(dòng)翻譯的理想,但由于自然語(yǔ)言的復雜性,要找到既完備又具有很強表達能力的中間語(yǔ)言非常困難。不過(guò),為了實(shí)現多國語(yǔ)言之間的互譯,中間語(yǔ)言是一個(gè)非常好的思路,那樣任何兩種語(yǔ)言之間的翻譯所需的工作量只與語(yǔ)種的數量成正比。在多語(yǔ)種互譯中類(lèi)似于C-STAR Ⅲ IF的中間語(yǔ)言口語(yǔ)翻譯是一個(gè)非常重要的方向。

  發(fā)展前景美好而曲折

  目前國際上對口語(yǔ)翻譯比較有影響的研究計劃和組織主要有德國的Verbmobil開(kāi)發(fā)計劃和國際口語(yǔ)翻譯先進(jìn)研究組織(C-STAR)。Verbmobil計劃是由德國B(niǎo)MBF出資,日本ATR International、美國Carnegie Mellon University、德國Deutsches Forschungszentrum für Künstliche Intelligenz等22所大學(xué)和7個(gè)公司參與,Siemens負責集成的一個(gè)語(yǔ)音翻譯系統研究計劃。

  1993~1996年,該計劃完成了第一階段原型系統的設計,該系統又稱(chēng)為Verbmobil Demonstrator,包括2500個(gè)單詞量的德英翻譯和400個(gè)單詞量的德日翻譯,主要應用在商業(yè)會(huì )晤和日程安排領(lǐng)域。

  1997~2000年,該系統的單詞量增加到1萬(wàn)個(gè),語(yǔ)種以德、英、日為主向多語(yǔ)種擴展,應用領(lǐng)域也擴展為旅游日程安排、旅館預訂等多個(gè)領(lǐng)域。

  C-STAR的全稱(chēng)是International consortium for Speech Translation Advanced Research,成立于1991年,發(fā)起者為日本ATR、美國CMU大學(xué)、Siemens等國際知名研究機構,最初稱(chēng)為C-STAR I。這個(gè)國際組織以實(shí)現多語(yǔ)種的自由交談為目標,并于1993年進(jìn)行了世界上第一個(gè)語(yǔ)音翻譯系統的演示。其后,許多科技機構相繼投入其中,并得到各國政府部門(mén)的支持,C-STAR也隨之發(fā)展壯大。到今天,已經(jīng)發(fā)展到了C-STAR Ⅲ,其中包括7個(gè)核心成員和20多個(gè)觀(guān)察成員。

  語(yǔ)音翻譯是一個(gè)很具挑戰性的人類(lèi)科學(xué)工程,然而人類(lèi)對挑戰的應對也是充滿(mǎn)智慧的,過(guò)去10年不斷取得進(jìn)展的語(yǔ)音翻譯也證明了這一點(diǎn)。雖然我們很難為語(yǔ)音翻譯給出一個(gè)準確的進(jìn)展時(shí)間表,但可以大膽地給出一個(gè)對未來(lái)展望的時(shí)間表:

   30年之后將會(huì )有無(wú)領(lǐng)域限制的翻譯系統,屆時(shí)人類(lèi)的全球交流基本沒(méi)有障礙。 北京成功申請到了2008年奧運會(huì )的舉辦權,這對語(yǔ)音翻譯的需求更加迫切。要實(shí)現奧申委提出的在整個(gè)奧運期間“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多語(yǔ)言信息服務(wù)的承諾,首先就要克服語(yǔ)言交流的瓶頸問(wèn)題,我們相信語(yǔ)音翻譯技術(shù)在這方面將大有可為。

計算機世界報 2002/03/11



相關(guān)鏈接:
構建更加人性化的交談式語(yǔ)音應用 2002-03-11
語(yǔ)音合成——燦爛的前景 巨大的商機 2002-01-30
語(yǔ)音合成技術(shù)及國內外發(fā)展現狀 2002-01-30
Evoice有聲電子郵件系統 2002-01-30
語(yǔ)音合成系統的關(guān)鍵技術(shù) 2002-01-30

分類(lèi)信息:  語(yǔ)音合成TTS_與_語(yǔ)音識別ASR     技術(shù)_語(yǔ)音合成_文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 新津县| 芮城县| 达孜县| 治多县| 叶城县| 容城县| 陇川县| 肇源县| 凤台县| 老河口市| 三明市| 崇左市| 巴楚县| 云林县| 扎赉特旗| 蓝田县| 仲巴县| 道孚县| 南丹县| 内江市| 东安县| 清流县| 昌乐县| 观塘区| 丽江市| 新野县| 英山县| 锦州市| 同心县| 上蔡县| 民权县| 潼关县| 大洼县| 曲阜市| 财经| 内乡县| 刚察县| 新沂市| 堆龙德庆县| 湄潭县| 织金县| http://444 http://444 http://444 http://444 http://444 http://444