首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品


ASR:“說(shuō)得出做得到”

——語(yǔ)音識別技術(shù)正在走進(jìn)大眾生活

陳青松

  愛(ài)看科幻電影的朋友恐怕都不會(huì )忘記,在影片中常常有以聲控方式來(lái)操縱汽車(chē)、電腦及一切電器的情節,而現在人們依靠電腦電話(huà)整合系統CTI(ComputerTelephoneIntegration)技術(shù)已經(jīng)讓這些科學(xué)幻想走向現實(shí)。例如,當你對著(zhù)某品牌手機直呼某人姓名時(shí),就可以自動(dòng)撥通對方的電話(huà);三菱汽車(chē)推出的Galant車(chē)款,駕駛員也可透過(guò)聲控來(lái)操作音響等設備。

  所謂“電腦電話(huà)整合系統”CTI,其實(shí)就是我們熟悉的“電話(huà)語(yǔ)音系統”。在通訊日漸發(fā)達的日常生活中,CTI已到了無(wú)所不在的地步。打電話(huà)到車(chē)站訂票、到醫院掛號,接聽(tīng)電話(huà)語(yǔ)音廣告,銀行的查帳、國際長(cháng)途通訊的網(wǎng)絡(luò )電話(huà)等等,這些都是CTI領(lǐng)域下的產(chǎn)品。而這些產(chǎn)品,若繼續延伸到新的發(fā)展趨勢,除了網(wǎng)絡(luò )電話(huà)的發(fā)展模式較為獨立之外,語(yǔ)音辨識和自動(dòng)話(huà)務(wù)系統兩者將會(huì )是未來(lái)市場(chǎng)的主流。

  CTI的核心技術(shù)就是電腦語(yǔ)音辨識系統的應用。電腦語(yǔ)音辨識系統可分為二種:一是個(gè)人使用;二是大眾服務(wù)。個(gè)人使用的語(yǔ)音辨識系統在技術(shù)上較容易實(shí)現,如IBM等公司開(kāi)發(fā)的語(yǔ)音輸入法已在市場(chǎng)上銷(xiāo)售。這種個(gè)人用的語(yǔ)音辨識系統具有幾個(gè)特點(diǎn):一是產(chǎn)品使用者單一,二是詞匯簡(jiǎn)易,三是電腦學(xué)習使用者語(yǔ)音特點(diǎn)的機會(huì )多。此類(lèi)產(chǎn)品目前能夠走向市場(chǎng)化,主要是因為他們采取的是“片語(yǔ)式”辨識,藉由特定詞匯、片語(yǔ),電腦很容易學(xué)習和熟悉這些指令;同時(shí),操作者的多半是某個(gè)固定的使用者,只要經(jīng)過(guò)多次的練習,電腦可以很快地熟悉這些特定的發(fā)音和語(yǔ)句。

  另一種供大眾使用的語(yǔ)音辨識系統,如:用于大型電腦服務(wù)需求的金融機構、電信公司、航空和鐵路等部門(mén)的自動(dòng)話(huà)務(wù)系統(CallCenter),其技術(shù)層次較高,目前國內這類(lèi)產(chǎn)品投入商業(yè)應用的極少。這主要是由于目前的語(yǔ)音辨識系統至多只能做到“條件式”的階段(注:“條件式”語(yǔ)音辨識,是指電腦在有限的條件下,才可以執行的聲音指令。)

  當然要達到無(wú)所不識的“自然語(yǔ)音辨識”水平還是一個(gè)長(cháng)遠的目標,預計可能還要幾年的時(shí)間才有可能成熟。其中的技術(shù)“瓶頸”關(guān)鍵在于語(yǔ)言的千變萬(wàn)化。語(yǔ)言當中的聲紋和語(yǔ)意的分析,可說(shuō)是對電腦的兩項極大的挑戰。

  在聲紋方面,電腦接收聲音的環(huán)境必須很單純,而在人類(lèi)語(yǔ)言當中,夾雜了太多的同音、相似音和腔調,光是數字“一”和“七”的發(fā)音就容易混淆;相較于聲紋的掌控,語(yǔ)意分析對電腦程序設計人員更是一大挑戰。一個(gè)人若不是照著(zhù)規矩講話(huà),可能會(huì )造成電腦的誤判和混淆,而一句話(huà)的意思該怎么表達,不同人往往有不同的習慣。

  除了上述兩種問(wèn)題之外,還可能出現速度問(wèn)題。有些人說(shuō)話(huà)速度快,有些人說(shuō)話(huà)速度慢,而電腦在處理各種南腔北調時(shí),如何在最短時(shí)間內辨識出其中語(yǔ)意,將會(huì )是非常重要的一環(huán)。

  為了解決語(yǔ)音問(wèn)題,業(yè)界最普遍的做法,就是針對某一行業(yè)某個(gè)領(lǐng)域,依賴(lài)歸納法,搜集大量的專(zhuān)有詞匯及語(yǔ)法,進(jìn)行分類(lèi)歸納后,儲存在電腦中用來(lái)在以后辨識中應用。目前解決這些技術(shù)難題較成功的有美國Nuance公司,據稱(chēng)其語(yǔ)音辨識系統已達到了97%的效果,但中文的辨識能力有多高,目前還在評估之中。現在許多國際大廠(chǎng)商,如IBM、英特爾和西門(mén)子等都在這方面積極開(kāi)拓,可以相信不久的將來(lái),語(yǔ)音辨識系統的應用將會(huì )更加大眾化,讓人們的生活更加隨“語(yǔ)”所欲。

 



相關(guān)鏈接:
主要語(yǔ)音引擎及開(kāi)發(fā)工具 2002-01-30
聲揚語(yǔ)音識別系列開(kāi)發(fā)工具 2002-01-30
IBM ViaVoice語(yǔ)音軟件開(kāi)發(fā)工具 2002-01-30
語(yǔ)音識別的應用前景 2002-01-30
語(yǔ)音識別技術(shù)的發(fā)展趨勢 2002-01-30

分類(lèi)信息:     技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 万源市| 建德市| 通山县| 宣威市| 南平市| 梁平县| 双鸭山市| 阳江市| 遵义市| 锦州市| 利辛县| 大竹县| 冕宁县| 安多县| 民权县| 枞阳县| 京山县| 韩城市| 绍兴县| 灌阳县| 紫云| 古田县| 临高县| 旅游| 资源县| 邻水| 花莲县| 民权县| 镇巴县| 托克托县| 墨竹工卡县| 离岛区| 鄂尔多斯市| 资源县| 美姑县| 阿克陶县| 临海市| 红安县| 福州市| 绥芬河市| 凌源市| http://444 http://444 http://444 http://444 http://444 http://444