首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>中科模識

Pattek語(yǔ)音識別產(chǎn)品:找一條走得通的路

2002/08/08

長(cháng)期以來(lái),我國很多基礎性的技術(shù)研究都靠國家投資在支撐著(zhù)。這些項目如何更快地走出實(shí)驗室帶來(lái)社會(huì )和經(jīng)濟效益將對其能否更快地發(fā)展具有重要意義。語(yǔ)音識別技術(shù)的研發(fā)面臨著(zhù)同樣的問(wèn)題,中科院自動(dòng)化所在如何能更快地帶來(lái)回報,獲得社會(huì )資源的支持方面選擇了一條捷徑,其Pattek語(yǔ)音識別產(chǎn)品由此誕生……

當我們發(fā)現一條路因施工而很難走,甚至無(wú)法通行時(shí),我們面臨著(zhù)兩種選擇:按原計劃繼續走,而不管前路是否通暢,或是退回去找一條能夠繞過(guò)施工地段的路。這種選擇對語(yǔ)音識別技術(shù)也同樣存在。

艱難語(yǔ)音路

1997年9月,IBM在國內發(fā)布了一款語(yǔ)音識別產(chǎn)品——ViaVoice,這款產(chǎn)品的到來(lái)令整個(gè)計算機行業(yè)為之沸騰,厭倦了鍵盤(pán)輸入的人們看到了一線(xiàn)希望。但是,5年時(shí)間過(guò)去了,我們幾乎看不到有人用語(yǔ)音來(lái)輸入文字,可以說(shuō),用語(yǔ)音聽(tīng)寫(xiě)的思路在過(guò)去這個(gè)時(shí)段的市場(chǎng)上敗得一塌糊涂。

ViaVoice的每一步都吸引著(zhù)每一個(gè)關(guān)注語(yǔ)音識別技術(shù)和產(chǎn)品的人的密切關(guān)注。它在市場(chǎng)上遭受的挫折同樣引人注目。于是,有人便開(kāi)始思考:語(yǔ)音識別技術(shù)在聽(tīng)寫(xiě)方面的應用是否已經(jīng)成熟?語(yǔ)音識別技術(shù)的應用是否非得定位于聽(tīng)寫(xiě)應用?

從ViaVoice的字面意義看,這是一條“語(yǔ)音通道”,但IBM已經(jīng)在這條語(yǔ)音通道里走了40年的時(shí)間,早在20世紀60年代初,IBM及其他一些力圖在語(yǔ)音識別領(lǐng)域有所作為的大型企業(yè)就開(kāi)始了語(yǔ)音識別技術(shù)的研究。40年的努力讓計算機從“稀世珍寶”變成了普通百性的必備之物,卻沒(méi)有讓語(yǔ)音識別技術(shù)走入人們的視野。于是,有人說(shuō):“語(yǔ)音識別技術(shù)從目前來(lái)看,食之無(wú)味,棄之可惜。”

“從目前的技術(shù)水平來(lái)看,語(yǔ)音識別技術(shù)要滿(mǎn)足聽(tīng)寫(xiě)應用的需要的確還有困難,但語(yǔ)音識別技術(shù)的應用不僅僅在聽(tīng)寫(xiě),其他一些方面的應用要求相對較低一些。因此,在某些領(lǐng)域的應用,語(yǔ)音識別技術(shù)已經(jīng)可以實(shí)現具有應用價(jià)值的產(chǎn)品。”在語(yǔ)音識別領(lǐng)域工作了14年的徐波提出他的看法。

這種思路直接影響了中科院自動(dòng)化所Pattek語(yǔ)音識別產(chǎn)品的出臺。

今年6月底,中科院自動(dòng)化所在北京發(fā)布了四款語(yǔ)音識別產(chǎn)品,這些產(chǎn)品的出臺既是研發(fā)人員10多年努力的結晶,同時(shí)標志著(zhù)國內語(yǔ)音技術(shù)發(fā)展完全依靠國家投資的狀況將有所改變。

路漫漫其修遠

1987年,中科院自動(dòng)化所模式識別實(shí)驗室在國家領(lǐng)導的關(guān)心下成立。其后,有關(guān)語(yǔ)音識別技術(shù)的研究工作隨即展開(kāi)。這與世界語(yǔ)音識別技術(shù)研究的發(fā)展進(jìn)程相比已經(jīng)晚了20多年。“剛剛成立時(shí)的語(yǔ)音識別技術(shù)研究項目組僅有3個(gè)成員,當時(shí)我們開(kāi)展的研究主要在于針對特定人的單音節語(yǔ)音識別。”徐波在回憶那段研究工作時(shí)說(shuō),“我們都看不懂國外的論文資料,因為他們的研究早已轉移到連續語(yǔ)音的識別上了(國外連續語(yǔ)音識別技術(shù)的研究工作在20世紀70年代就已經(jīng)開(kāi)始)。”從這個(gè)小小的細節,我們可以感受到技術(shù)研究的差距。

盡管如此,課仍需一節一節地補。語(yǔ)音識別項目組在1990年時(shí)建立了一個(gè)特定人的單字語(yǔ)音識別系統。當時(shí)就有企業(yè)想把這一系統產(chǎn)品化,但從事后的結果來(lái)看,市場(chǎng)上并沒(méi)有看到相應的產(chǎn)品。這個(gè)時(shí)期的技術(shù)離產(chǎn)品化尚有相當長(cháng)的距離。

補完了特定人、單音節語(yǔ)音識別的課,項目組迅速進(jìn)入到了下一個(gè)階段的研究工作中。1991年,項目組開(kāi)始了連續語(yǔ)音的非特定人識別技術(shù)研究。這時(shí),項目組與國際上的語(yǔ)音識別技術(shù)研究距離開(kāi)始縮短。經(jīng)過(guò)一年的努力,項目組拿出了一個(gè)小詞表的連續語(yǔ)音特定人識別系統。這個(gè)系統擁有2000個(gè)語(yǔ)音識別詞匯,它在一些特定領(lǐng)域的應用開(kāi)始成為可能。他們將這一技術(shù)應用在了中關(guān)村公交路線(xiàn)的查詢(xún)系統上。

從非連續語(yǔ)音到連續語(yǔ)音的研究面臨著(zhù)很多完全不同的技術(shù)難點(diǎn),非連續語(yǔ)音的識別是一些孤立的聲波片段,但連續語(yǔ)音則面臨著(zhù)如何切分聲波的問(wèn)題。諸如此類(lèi)的新問(wèn)題使連續語(yǔ)音識別率的提高比非連續語(yǔ)音更加困難。

另外,由于實(shí)際應用中的語(yǔ)音識別應該是面對非特定人的——作為一種語(yǔ)音識別產(chǎn)品,它可能面對各種各樣的人。這些人可能來(lái)自北京、上海、廣東、四川、新疆等全國各個(gè)角落,他們的口音存在著(zhù)很大的差別,要很好地“聽(tīng)”懂這些有著(zhù)巨大差別的語(yǔ)音,識別技術(shù)就必須相當地“聰明”。在ViaVoice產(chǎn)品中,IBM為其加入了“學(xué)習”功能來(lái)解決這一問(wèn)題,即根椐具體使用者的口音對語(yǔ)音模板進(jìn)行修正。但這種方式下使用者因為感冒或其他原因影響發(fā)音都將使識別率發(fā)生大幅度波動(dòng)。

為了獲得具有更強適應性的語(yǔ)音模板,自動(dòng)化所通過(guò)合作的方式在全國各地建立了7個(gè)采樣點(diǎn),收集全國各地不同口音的樣板,用于修正語(yǔ)音模板。這樣的采集工作已經(jīng)持續了10年之久。據徐波介紹,迄今為止,他們已經(jīng)擁有了4000個(gè)人的語(yǔ)音樣本,這些樣本更加準確地反映了各地不同口音的發(fā)音特點(diǎn)。

隨著(zhù)研究的深入,工作的復雜度也逐漸提升。1995年,項目組拿出了一個(gè)非特定人的大詞匯量語(yǔ)音識別系統。這一系統能處理4.6萬(wàn)以上的字詞,但它是非連續的孤立詞的識別。就像鍵盤(pán)輸入一樣,我們可以輸入系統內含的單字或詞語(yǔ),但用戶(hù)無(wú)法連續地整句輸入。

有了以上一些研究工作的基礎,項目組于1996年開(kāi)始著(zhù)手全力攻克集語(yǔ)音識別三大難點(diǎn)于一身的非特定人大詞匯量連續語(yǔ)音識別。也就在這一工作展開(kāi)一年后,IBM推出了ViaVoice產(chǎn)品。ViaVoice的推出不僅給研究組很大的震動(dòng),也讓他們看到了語(yǔ)音識別技術(shù)真正推向市場(chǎng),成為一種普及技術(shù)的曙光。

ViaVoice像有人在黎明前劃亮的一根火柴,它讓很多人以為是曙光已經(jīng)來(lái)臨,但這根火柴很快熄滅了。于是,有人開(kāi)始悲觀(guān),但也有人發(fā)現真正的曙光正在東方顯露出來(lái)。

期待曙光



“2000年的時(shí)候,我們非常圓滿(mǎn)地解決了在大詞匯量非特定人的連續語(yǔ)音識別中遇到的關(guān)鍵問(wèn)題。我們在此基礎上發(fā)表的論文在中文口語(yǔ)信息處理國際會(huì )議中榮獲了一等獎,這一技術(shù)在同等條件下已經(jīng)優(yōu)于國外一些著(zhù)名研究機構公開(kāi)發(fā)表的準確率。”徐波對這一成果相當地滿(mǎn)意。與此同時(shí),他們的語(yǔ)音識別技術(shù)更多地把上下文相關(guān)等語(yǔ)義分析技術(shù)加入到了其中。正如我們聽(tīng)別人說(shuō)話(huà)一樣,我們聽(tīng)懂的不是字詞,而是整句話(huà)的語(yǔ)義,以至于我們常常理解了語(yǔ)義卻并不記得原話(huà)。因此,一句話(huà)中每個(gè)字詞的識別與上下文密切相關(guān)。

雖然技術(shù)已經(jīng)有了大幅度地突破,而且計算機的處理能力也已經(jīng)今非昔比,但“真正實(shí)用的聽(tīng)寫(xiě)應用仍是個(gè)瓶頸”。徐波對語(yǔ)音識別技術(shù)的應用有他自己的看法。

聽(tīng)寫(xiě)應用不夠成熟并不意味著(zhù)語(yǔ)音識別技術(shù)的產(chǎn)品化就應該等待技術(shù)的成熟。徐波提出了目前可行的語(yǔ)音識別技術(shù)應用方向。“我們覺(jué)得目前的語(yǔ)音識別技術(shù)最主要的應用不在于PC上,而在移動(dòng)通信設備和嵌入式產(chǎn)品中。”在這種思路的指導下,自動(dòng)化所開(kāi)始了技術(shù)的產(chǎn)品化嘗試。他們在中文大詞匯量、非特定人、連續語(yǔ)音識別技術(shù)的基礎上開(kāi)始了三個(gè)方向的產(chǎn)品化工作。PC應用、嵌入式應用、移動(dòng)通信和網(wǎng)絡(luò )應用。

但是,一直以技術(shù)研究為核心能力的研究所在面對市場(chǎng)時(shí)將面臨很多的問(wèn)題。畢竟,長(cháng)期以來(lái)我國基礎研究與市場(chǎng)化運作的嚴重脫節難以在短時(shí)間內得到連接。而即便是一項成熟的技術(shù),它要在市場(chǎng)上獲得成功也仍有很長(cháng)的路需要走。因此,自動(dòng)化所的語(yǔ)音識別技術(shù)想在市場(chǎng)上獲得期望的效果就必然要有更廣泛的社會(huì )力量的支持。

為此,自動(dòng)化所一方面成立了下屬公司,對比較成熟的技術(shù)進(jìn)行市場(chǎng)化運作;另一方面,他們與國內外眾多的企業(yè)開(kāi)展了技術(shù)合作。通過(guò)與社會(huì )資源的聯(lián)合,自動(dòng)化所終于在6月底推出了基本成型的語(yǔ)音識別產(chǎn)品。正如自動(dòng)化所所長(cháng)譚鐵牛在會(huì )議上所說(shuō)的:“這是一件大事,中國人的聲音必須由中國人掌握。”它不僅僅標志著(zhù)自動(dòng)化所在語(yǔ)音識別領(lǐng)域10多年的努力開(kāi)始有了成果,更重要的是它趟出了一條從國家支持的技術(shù)研究項目走向市場(chǎng)的道路。

語(yǔ)音識別技術(shù)能夠走出實(shí)驗室,及時(shí)地進(jìn)行產(chǎn)品化,其中很重要的一點(diǎn)在于如何把研究所的技術(shù)研究能力、企業(yè)的產(chǎn)品化和市場(chǎng)化能力結合起來(lái)。自動(dòng)化所的嘗試填補了研究與市場(chǎng)之間的鴻溝。

合作出產(chǎn)品

6月27日,眾多的新聞媒體和IT業(yè)人士把北京大運村天鴻科園大酒店的鴻運廳擠得水泄不通。自動(dòng)化所的四款語(yǔ)音識別產(chǎn)品在這里發(fā)布引起了廣泛的關(guān)注。這四款產(chǎn)品包括三款語(yǔ)音識別SDK(軟件開(kāi)發(fā)包)和一款DSP語(yǔ)音識別板卡。這些產(chǎn)品都還不是可以直接拿到市場(chǎng)上賣(mài)的終端產(chǎn)品,但它將通過(guò)與大量的產(chǎn)品開(kāi)發(fā)商合作最終實(shí)現這些產(chǎn)品的巨大價(jià)值。如DSP可以被電器廠(chǎng)商加入到它們的電器中,使電器能夠接收主人用語(yǔ)言下的指令。

把它用在電視中,用戶(hù)就可以直接告訴它開(kāi)機、關(guān)機或切換頻道。

三款SDK產(chǎn)品中,分別面向通信/網(wǎng)絡(luò )、嵌入式系統和PC環(huán)境。它們可以讓手機、掌上電腦、PC軟件開(kāi)發(fā)商輕易地在相應的設備中加入語(yǔ)音控制功能。

“2000年下半年,我們開(kāi)始考慮語(yǔ)音識別的應用問(wèn)題,最初的考慮是把語(yǔ)音識別技術(shù)做成SDK,通過(guò)許可證的方式讓各軟件開(kāi)發(fā)商使用。”也就在這個(gè)時(shí)候,自動(dòng)化所下屬的北京中科模識科技有限公司(簡(jiǎn)稱(chēng)模識科技)成立了。“我們的想法是把一些可以在半年左右推向市場(chǎng)的技術(shù)通過(guò)模識科技的市場(chǎng)化運作,把它推出去。”徐波的想法很直接,也很務(wù)實(shí)。

此后,模識科技與市場(chǎng)上的其他企業(yè)也展開(kāi)了一系列的合作,如針對具有語(yǔ)音識別能力的XML平臺的開(kāi)發(fā),自動(dòng)化所就與中文之星及Intel展開(kāi)了全面的合作。它們三者中,模識科技負責語(yǔ)音識別引擎的開(kāi)發(fā),中文之星負責XML平臺級的軟件開(kāi)發(fā),而Intel負責架構的設計和應用市場(chǎng)的支持。這種合作為產(chǎn)品的順利出臺鋪平了道路。

2001年,自動(dòng)化所開(kāi)始考慮開(kāi)發(fā)一種獨立于軟件平臺的硬件語(yǔ)音識別產(chǎn)品。它們通過(guò)與上海廣電信息股份有限公司和粵TCL聯(lián)合開(kāi)發(fā)完成了語(yǔ)音遙控器。它將使人們可以用語(yǔ)音來(lái)控制家用電器。“下一步我們將把DSP板卡做成語(yǔ)音識別芯片,這樣一方面可以降低成本,另一方面也將促進(jìn)語(yǔ)音識別技術(shù)的大規模應用。”徐波的話(huà)音里透露出看到希望時(shí)的興奮,“語(yǔ)音識別技術(shù)是一種基礎性技術(shù),它現在也是一種戰略性技術(shù)。未來(lái)的各種隨身設備都將允許人們用語(yǔ)音來(lái)控制和操作,它不僅僅是在PC的輸入方法中一種‘錦上添花’的技術(shù),而是不可或缺的技術(shù)。”徐波多次強調信息設備的多模態(tài)交互能力,在他的心目中,人們在使用設備時(shí)往往希望借助畫(huà)面、聲音、手寫(xiě)、鍵盤(pán)等多種方式,以便人們更方便地使用它。

對自動(dòng)化所來(lái)說(shuō),這僅僅是一個(gè)開(kāi)頭,它的語(yǔ)音識別技術(shù)還有很多的應用領(lǐng)域,而這些領(lǐng)域的應用要求它更加廣泛地開(kāi)展合作。事實(shí)也正是如此,模識科技與更多企業(yè)在不同領(lǐng)域的合作也正在商洽之中。也許,這是一條走得通的路。

產(chǎn)品檔案

Pattek語(yǔ)音識別產(chǎn)品

Pattek是今年6月底中科院自動(dòng)化所推出的語(yǔ)音識別產(chǎn)品,它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款產(chǎn)品。其中Pattek ASR/C2.0是面向計算資源要求較為苛刻的嵌入式系統的SDK,Pattek ASR/T2.0是面向通信和網(wǎng)絡(luò )應用的SDK,Pattek ASR/P2.0是面向PC平臺的SDK,Pattek DSP/A1.3則是面向嵌入式環(huán)境的硬件語(yǔ)音識別板卡。

這些產(chǎn)品的特點(diǎn)在于識別率高,對環(huán)境噪聲和口音有很強的適應能力。其中,面向嵌入式系統的Pattek ASR/C2.0對系統要求很低,它對內存資源的占用小于1MB,能運行于所有基于Windows CE操作系統的嵌入式產(chǎn)品中。Pattek ASR/T2.0可以支持多服務(wù)器和分布式語(yǔ)音識別應用,單個(gè)服務(wù)器CPU可以同時(shí)處理16路語(yǔ)音輸入,它將主要應用于各種行業(yè)的呼叫中心,代替一些人工服務(wù)。面向PC環(huán)境的Pattek ASR/P2.0可以應用于基于PC的各種應用,如語(yǔ)音玩具、語(yǔ)音教學(xué)、語(yǔ)音多媒體信息查詢(xún)等。Pattek DSP/A1.3可以獨立地嵌入到不同設備和系統中,提供完整的嵌入式語(yǔ)音識別解決方案。

計算機世界(www.ccw.com.cn)


相關(guān)鏈接:
愛(ài)可信與模識科技攜手 推動(dòng)語(yǔ)音識別技術(shù)應用 2006-08-02
模識科技推出跨平臺 "天語(yǔ)"語(yǔ)音識別引擎 3.0 2003-03-24
新一代智能語(yǔ)音總機PATTEK VoiceSwitch 2.0 2002-08-29
電話(huà)撥號不按鍵 中文語(yǔ)音識別技術(shù)大突破 2002-07-20
中文語(yǔ)音識別技術(shù)取得突破 2002-06-28

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 闽侯县| 太白县| 噶尔县| 望谟县| 通化市| 炎陵县| 普定县| 米脂县| 仁寿县| 吉林市| 彭水| 永仁县| 恩平市| 四子王旗| 类乌齐县| 平和县| 陇南市| 厦门市| 顺昌县| 中牟县| 甘孜县| 宜兰县| 尚义县| 浦江县| 长海县| 广东省| 綦江县| 察雅县| 新泰市| 全南县| 高邑县| 依安县| 仪陇县| 兰考县| 虹口区| 景谷| 宜章县| 贵溪市| 区。| 溧水县| 绵竹市| http://444 http://444 http://444 http://444 http://444 http://444