IBM中國研究中心 沈麗琴 博士 2000/09/13
直到今天,像人一樣的機器人依然顯得遙不可及,但作為機器人的耳朵,語(yǔ)音識別技術(shù)近幾年有了許多突破性進(jìn)展,終于從實(shí)驗室走進(jìn)了我們的生活。
首先,將隱馬爾科夫模型引入語(yǔ)音識別是該領(lǐng)域的重要突破。它有效體現了語(yǔ)音信號的隨機概率過(guò)程,它成熟的訓練算法又為語(yǔ)音模型的建立提供了基礎。至今,這仍是語(yǔ)音建模的主流方法。在隨后的研究中,科學(xué)家們發(fā)現同樣一個(gè)音,在它的上下文不同時(shí),發(fā)音的特征不盡相同。為了更準確地描述這些變化,決策樹(shù)被用來(lái)描述和記錄上下文對語(yǔ)音模型的影響。另外,我們在聽(tīng)別人講話(huà)時(shí),并不一定聽(tīng)清了對方發(fā)出的每一個(gè)音,但根據談話(huà)的主題和我們的語(yǔ)言知識背景,可以猜出那些沒(méi)聽(tīng)清的音是什么,而且毫不影響我們的交流。這就是語(yǔ)言模型的功勞了。它幫助我們在聽(tīng)到前面的談話(huà)內容后,猜測后面會(huì )說(shuō)什么,特別是有同音詞和近音詞的時(shí)候,幫助我們消除歧義,確定正確的說(shuō)話(huà)內容。IBM的科學(xué)家們發(fā)明了n元的統計語(yǔ)言模型,通過(guò)輸入給計算機大量的文字資料,讓它“學(xué)習”和“記憶”人們會(huì )怎么用詞,組句。可是,語(yǔ)音識別需要的計算資源太大,沒(méi)有新的突破它依然只能是實(shí)驗室技術(shù)。特別是要聽(tīng)懂人們日常講話(huà),因為我們常用的詞匯太多,有好幾萬(wàn),科學(xué)家們想出了先用快速匹配方法,用很小的計算量很快地找出與發(fā)音相似的候選詞,然后在縮小的范圍中,進(jìn)行仔細計算,這顯著(zhù)提高了大詞匯系統識別的速度。還有其他一系列不勝枚舉的重大突破。IBM的許多科學(xué)家在這領(lǐng)域長(cháng)期不懈的努力和獲得的一百多項專(zhuān)利,確定了公司技術(shù)上的領(lǐng)先地位。另外值得一提的是,得益于這些年微處理器的速度加快,成本降低,語(yǔ)音識別才真正能夠走入我們的生活。
創(chuàng )造先進(jìn)的技術(shù)是根本,將技術(shù)用于生活和工作,服務(wù)于人類(lèi)才是最終的目的。1997年,IBM公司推出了世界上第一個(gè)中文連續語(yǔ)音識別產(chǎn)品——ViaVoice4.0,終于突破了連續語(yǔ)音、大詞匯量和非特定識別人的難關(guān),并成功解決了漢語(yǔ)同音字多、有聲調、口音復雜等問(wèn)題,幫助人們從笨拙的鍵盤(pán)輸入中解脫出來(lái),因而被廣泛認為是漢字輸入的重要里程碑。這項技術(shù)對中國人的意義尤其重大,因為漢字的鍵盤(pán)輸入對許多人來(lái)說(shuō)都是很困難的。至今為止,IBM共有13種語(yǔ)言的語(yǔ)音識別產(chǎn)品。但是聽(tīng)寫(xiě)機只是一個(gè)開(kāi)始,直到去年的ViaVoice巍巍世紀版,更有語(yǔ)音控制、語(yǔ)音上網(wǎng)、網(wǎng)上聊天等功能,讓人們能真的輕松運用計算機。(IBM中國研究中心沈麗琴博士)
IBM在去年年底發(fā)布的電話(huà)語(yǔ)音識別技術(shù)可以使許多商家的服務(wù)更 周到,更多的電話(huà)用戶(hù)受益。有了這項技術(shù),各種信息查詢(xún)、飛機訂 票、旅館預定等都可以實(shí)現自動(dòng)化。利用IBM的語(yǔ)音識別技術(shù)通過(guò)電話(huà) 上網(wǎng),用戶(hù)只需說(shuō)出你想得到的網(wǎng)上信息,機器就會(huì )自動(dòng)識別,將你 的請求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語(yǔ)音合成技術(shù)回放給你, 為用戶(hù)提供人性化的語(yǔ)音應答交互界面。這樣,眾多的電話(huà)用戶(hù)就可 以享受到網(wǎng)上信息服務(wù)。
越來(lái)越多的掌上設備正慢慢成為許多人的生活和工作必備品,比 如手機、電子記事本,IBM的WorkPad等。這些小的設備或者沒(méi)有鍵 盤(pán),或者只有簡(jiǎn)單的數字鍵,輸入和各種操作都十分不便。如果能用 人們覺(jué)得最自然的方式———語(yǔ)音進(jìn)行控制,人們將更加青睞這些靈 巧的伴侶。IBM公司將已經(jīng)在高端計算機上發(fā)展的語(yǔ)音技術(shù)進(jìn)行簡(jiǎn)化, 抽取其中的核心技術(shù),研制出用于這類(lèi)低端設備的識別引擎,并在市 場(chǎng)中的某些掌上電腦上成功建立了實(shí)用的原型系統,證明了技術(shù)的可 行性。相信在不久的將來(lái),人們完全可以用語(yǔ)音操作手機和各種掌上 設備。
為了讓人與機器的交流更加自然,我們需要機器不僅能識別準用 戶(hù)說(shuō)的話(huà),更要理解它,然后去執行相應的動(dòng)作。比如,用戶(hù)通過(guò)語(yǔ) 音訂房,要求“訂一套10月12日在某某酒店的單人房”。當用語(yǔ)音識 別技術(shù)識別出這句話(huà)后,機器還需要理解客戶(hù)入住的時(shí)間是“10月 12日”,酒店是“某某酒店”,房型是“單人房”。然后將這些需求 送給系統才能完成預定。這是自然語(yǔ)言理解的技術(shù)。目前還不十分成 熟,但已初步使用。同時(shí)機器必須產(chǎn)生合適的回答把得到的信息(如 是否有房,價(jià)格等)反饋給用戶(hù),或提示用戶(hù)需要進(jìn)一步的信息(如 請用戶(hù)提供離店日期等),這就是自然語(yǔ)言產(chǎn)生的技術(shù)。產(chǎn)生準確地 應答也是一項十分具有挑戰性的技術(shù)。另外相關(guān)的技術(shù)還有,在許多 應用場(chǎng)合,需要說(shuō)話(huà)人辨識技術(shù),以便通過(guò)語(yǔ)音判斷說(shuō)話(huà)人是誰(shuí),免 去用戶(hù)記憶難記的密碼。提供更友好的系統與人的交互界面。
當然,語(yǔ)音識別本身也還沒(méi)有達到完美,還有許多挑戰等待著(zhù)科 學(xué)家去一一攻破。比如對不同噪聲環(huán)境的適應;兩種或多種語(yǔ)言?shī)A雜 使用的語(yǔ)音識別;或者特別隨意的對話(huà)識別等等。可以看到,語(yǔ)音識 別技術(shù)將讓我們體會(huì )到技術(shù)創(chuàng )新給人類(lèi)帶來(lái)的輕松和效率。
《光明日報》 2000/09/13