Pattek語(yǔ)音識別產(chǎn)品:找一條走得通的路
2002/08/08
長(cháng)期以來(lái),我國很多基礎性的技術(shù)研究都靠國家投資在支撐著(zhù)。這些項目如何更快地走出實(shí)驗室帶來(lái)社會(huì )和經(jīng)濟效益將對其能否更快地發(fā)展具有重要意義。語(yǔ)音識別技術(shù)的研發(fā)面臨著(zhù)同樣的問(wèn)題,中科院自動(dòng)化所在如何能更快地帶來(lái)回報,獲得社會(huì )資源的支持方面選擇了一條捷徑,其Pattek語(yǔ)音識別產(chǎn)品由此誕生……
當我們發(fā)現一條路因施工而很難走,甚至無(wú)法通行時(shí),我們面臨著(zhù)兩種選擇:按原計劃繼續走,而不管前路是否通暢,或是退回去找一條能夠繞過(guò)施工地段的路。這種選擇對語(yǔ)音識別技術(shù)也同樣存在。
艱難語(yǔ)音路
1997年9月,IBM在國內發(fā)布了一款語(yǔ)音識別產(chǎn)品——ViaVoice,這款產(chǎn)品的到來(lái)令整個(gè)計算機行業(yè)為之沸騰,厭倦了鍵盤(pán)輸入的人們看到了一線(xiàn)希望。但是,5年時(shí)間過(guò)去了,我們幾乎看不到有人用語(yǔ)音來(lái)輸入文字,可以說(shuō),用語(yǔ)音聽(tīng)寫(xiě)的思路在過(guò)去這個(gè)時(shí)段的市場(chǎng)上敗得一塌糊涂。
ViaVoice的每一步都吸引著(zhù)每一個(gè)關(guān)注語(yǔ)音識別技術(shù)和產(chǎn)品的人的密切關(guān)注。它在市場(chǎng)上遭受的挫折同樣引人注目。于是,有人便開(kāi)始思考:語(yǔ)音識別技術(shù)在聽(tīng)寫(xiě)方面的應用是否已經(jīng)成熟?語(yǔ)音識別技術(shù)的應用是否非得定位于聽(tīng)寫(xiě)應用?
從ViaVoice的字面意義看,這是一條“語(yǔ)音通道”,但IBM已經(jīng)在這條語(yǔ)音通道里走了40年的時(shí)間,早在20世紀60年代初,IBM及其他一些力圖在語(yǔ)音識別領(lǐng)域有所作為的大型企業(yè)就開(kāi)始了語(yǔ)音識別技術(shù)的研究。40年的努力讓計算機從“稀世珍寶”變成了普通百性的必備之物,卻沒(méi)有讓語(yǔ)音識別技術(shù)走入人們的視野。于是,有人說(shuō):“語(yǔ)音識別技術(shù)從目前來(lái)看,食之無(wú)味,棄之可惜。”
“從目前的技術(shù)水平來(lái)看,語(yǔ)音識別技術(shù)要滿(mǎn)足聽(tīng)寫(xiě)應用的需要的確還有困難,但語(yǔ)音識別技術(shù)的應用不僅僅在聽(tīng)寫(xiě),其他一些方面的應用要求相對較低一些。因此,在某些領(lǐng)域的應用,語(yǔ)音識別技術(shù)已經(jīng)可以實(shí)現具有應用價(jià)值的產(chǎn)品。”在語(yǔ)音識別領(lǐng)域工作了14年的徐波提出他的看法。
這種思路直接影響了中科院自動(dòng)化所Pattek語(yǔ)音識別產(chǎn)品的出臺。
今年6月底,中科院自動(dòng)化所在北京發(fā)布了四款語(yǔ)音識別產(chǎn)品,這些產(chǎn)品的出臺既是研發(fā)人員10多年努力的結晶,同時(shí)標志著(zhù)國內語(yǔ)音技術(shù)發(fā)展完全依靠國家投資的狀況將有所改變。
路漫漫其修遠
1987年,中科院自動(dòng)化所模式識別實(shí)驗室在國家領(lǐng)導的關(guān)心下成立。其后,有關(guān)語(yǔ)音識別技術(shù)的研究工作隨即展開(kāi)。這與世界語(yǔ)音識別技術(shù)研究的發(fā)展進(jìn)程相比已經(jīng)晚了20多年。“剛剛成立時(shí)的語(yǔ)音識別技術(shù)研究項目組僅有3個(gè)成員,當時(shí)我們開(kāi)展的研究主要在于針對特定人的單音節語(yǔ)音識別。”徐波在回憶那段研究工作時(shí)說(shuō),“我們都看不懂國外的論文資料,因為他們的研究早已轉移到連續語(yǔ)音的識別上了(國外連續語(yǔ)音識別技術(shù)的研究工作在20世紀70年代就已經(jīng)開(kāi)始)。”從這個(gè)小小的細節,我們可以感受到技術(shù)研究的差距。
盡管如此,課仍需一節一節地補。語(yǔ)音識別項目組在1990年時(shí)建立了一個(gè)特定人的單字語(yǔ)音識別系統。當時(shí)就有企業(yè)想把這一系統產(chǎn)品化,但從事后的結果來(lái)看,市場(chǎng)上并沒(méi)有看到相應的產(chǎn)品。這個(gè)時(shí)期的技術(shù)離產(chǎn)品化尚有相當長(cháng)的距離。
補完了特定人、單音節語(yǔ)音識別的課,項目組迅速進(jìn)入到了下一個(gè)階段的研究工作中。1991年,項目組開(kāi)始了連續語(yǔ)音的非特定人識別技術(shù)研究。這時(shí),項目組與國際上的語(yǔ)音識別技術(shù)研究距離開(kāi)始縮短。經(jīng)過(guò)一年的努力,項目組拿出了一個(gè)小詞表的連續語(yǔ)音特定人識別系統。這個(gè)系統擁有2000個(gè)語(yǔ)音識別詞匯,它在一些特定領(lǐng)域的應用開(kāi)始成為可能。他們將這一技術(shù)應用在了中關(guān)村公交路線(xiàn)的查詢(xún)系統上。
從非連續語(yǔ)音到連續語(yǔ)音的研究面臨著(zhù)很多完全不同的技術(shù)難點(diǎn),非連續語(yǔ)音的識別是一些孤立的聲波片段,但連續語(yǔ)音則面臨著(zhù)如何切分聲波的問(wèn)題。諸如此類(lèi)的新問(wèn)題使連續語(yǔ)音識別率的提高比非連續語(yǔ)音更加困難。
另外,由于實(shí)際應用中的語(yǔ)音識別應該是面對非特定人的——作為一種語(yǔ)音識別產(chǎn)品,它可能面對各種各樣的人。這些人可能來(lái)自北京、上海、廣東、四川、新疆等全國各個(gè)角落,他們的口音存在著(zhù)很大的差別,要很好地“聽(tīng)”懂這些有著(zhù)巨大差別的語(yǔ)音,識別技術(shù)就必須相當地“聰明”。在ViaVoice產(chǎn)品中,IBM為其加入了“學(xué)習”功能來(lái)解決這一問(wèn)題,即根椐具體使用者的口音對語(yǔ)音模板進(jìn)行修正。但這種方式下使用者因為感冒或其他原因影響發(fā)音都將使識別率發(fā)生大幅度波動(dòng)。
為了獲得具有更強適應性的語(yǔ)音模板,自動(dòng)化所通過(guò)合作的方式在全國各地建立了7個(gè)采樣點(diǎn),收集全國各地不同口音的樣板,用于修正語(yǔ)音模板。這樣的采集工作已經(jīng)持續了10年之久。據徐波介紹,迄今為止,他們已經(jīng)擁有了4000個(gè)人的語(yǔ)音樣本,這些樣本更加準確地反映了各地不同口音的發(fā)音特點(diǎn)。
隨著(zhù)研究的深入,工作的復雜度也逐漸提升。1995年,項目組拿出了一個(gè)非特定人的大詞匯量語(yǔ)音識別系統。這一系統能處理4.6萬(wàn)以上的字詞,但它是非連續的孤立詞的識別。就像鍵盤(pán)輸入一樣,我們可以輸入系統內含的單字或詞語(yǔ),但用戶(hù)無(wú)法連續地整句輸入。
有了以上一些研究工作的基礎,項目組于1996年開(kāi)始著(zhù)手全力攻克集語(yǔ)音識別三大難點(diǎn)于一身的非特定人大詞匯量連續語(yǔ)音識別。也就在這一工作展開(kāi)一年后,IBM推出了ViaVoice產(chǎn)品。ViaVoice的推出不僅給研究組很大的震動(dòng),也讓他們看到了語(yǔ)音識別技術(shù)真正推向市場(chǎng),成為一種普及技術(shù)的曙光。
ViaVoice像有人在黎明前劃亮的一根火柴,它讓很多人以為是曙光已經(jīng)來(lái)臨,但這根火柴很快熄滅了。于是,有人開(kāi)始悲觀(guān),但也有人發(fā)現真正的曙光正在東方顯露出來(lái)。
期待曙光

“2000年的時(shí)候,我們非常圓滿(mǎn)地解決了在大詞匯量非特定人的連續語(yǔ)音識別中遇到的關(guān)鍵問(wèn)題。我們在此基礎上發(fā)表的論文在中文口語(yǔ)信息處理國際會(huì )議中榮獲了一等獎,這一技術(shù)在同等條件下已經(jīng)優(yōu)于國外一些著(zhù)名研究機構公開(kāi)發(fā)表的準確率。”徐波對這一成果相當地滿(mǎn)意。與此同時(shí),他們的語(yǔ)音識別技術(shù)更多地把上下文相關(guān)等語(yǔ)義分析技術(shù)加入到了其中。正如我們聽(tīng)別人說(shuō)話(huà)一樣,我們聽(tīng)懂的不是字詞,而是整句話(huà)的語(yǔ)義,以至于我們常常理解了語(yǔ)義卻并不記得原話(huà)。因此,一句話(huà)中每個(gè)字詞的識別與上下文密切相關(guān)。
雖然技術(shù)已經(jīng)有了大幅度地突破,而且計算機的處理能力也已經(jīng)今非昔比,但“真正實(shí)用的聽(tīng)寫(xiě)應用仍是個(gè)瓶頸”。徐波對語(yǔ)音識別技術(shù)的應用有他自己的看法。
聽(tīng)寫(xiě)應用不夠成熟并不意味著(zhù)語(yǔ)音識別技術(shù)的產(chǎn)品化就應該等待技術(shù)的成熟。徐波提出了目前可行的語(yǔ)音識別技術(shù)應用方向。“我們覺(jué)得目前的語(yǔ)音識別技術(shù)最主要的應用不在于PC上,而在移動(dòng)通信設備和嵌入式產(chǎn)品中。”在這種思路的指導下,自動(dòng)化所開(kāi)始了技術(shù)的產(chǎn)品化嘗試。他們在中文大詞匯量、非特定人、連續語(yǔ)音識別技術(shù)的基礎上開(kāi)始了三個(gè)方向的產(chǎn)品化工作。PC應用、嵌入式應用、移動(dòng)通信和網(wǎng)絡(luò )應用。
但是,一直以技術(shù)研究為核心能力的研究所在面對市場(chǎng)時(shí)將面臨很多的問(wèn)題。畢竟,長(cháng)期以來(lái)我國基礎研究與市場(chǎng)化運作的嚴重脫節難以在短時(shí)間內得到連接。而即便是一項成熟的技術(shù),它要在市場(chǎng)上獲得成功也仍有很長(cháng)的路需要走。因此,自動(dòng)化所的語(yǔ)音識別技術(shù)想在市場(chǎng)上獲得期望的效果就必然要有更廣泛的社會(huì )力量的支持。
為此,自動(dòng)化所一方面成立了下屬公司,對比較成熟的技術(shù)進(jìn)行市場(chǎng)化運作;另一方面,他們與國內外眾多的企業(yè)開(kāi)展了技術(shù)合作。通過(guò)與社會(huì )資源的聯(lián)合,自動(dòng)化所終于在6月底推出了基本成型的語(yǔ)音識別產(chǎn)品。正如自動(dòng)化所所長(cháng)譚鐵牛在會(huì )議上所說(shuō)的:“這是一件大事,中國人的聲音必須由中國人掌握。”它不僅僅標志著(zhù)自動(dòng)化所在語(yǔ)音識別領(lǐng)域10多年的努力開(kāi)始有了成果,更重要的是它趟出了一條從國家支持的技術(shù)研究項目走向市場(chǎng)的道路。
語(yǔ)音識別技術(shù)能夠走出實(shí)驗室,及時(shí)地進(jìn)行產(chǎn)品化,其中很重要的一點(diǎn)在于如何把研究所的技術(shù)研究能力、企業(yè)的產(chǎn)品化和市場(chǎng)化能力結合起來(lái)。自動(dòng)化所的嘗試填補了研究與市場(chǎng)之間的鴻溝。
合作出產(chǎn)品
6月27日,眾多的新聞媒體和IT業(yè)人士把北京大運村天鴻科園大酒店的鴻運廳擠得水泄不通。自動(dòng)化所的四款語(yǔ)音識別產(chǎn)品在這里發(fā)布引起了廣泛的關(guān)注。這四款產(chǎn)品包括三款語(yǔ)音識別SDK(軟件開(kāi)發(fā)包)和一款DSP語(yǔ)音識別板卡。這些產(chǎn)品都還不是可以直接拿到市場(chǎng)上賣(mài)的終端產(chǎn)品,但它將通過(guò)與大量的產(chǎn)品開(kāi)發(fā)商合作最終實(shí)現這些產(chǎn)品的巨大價(jià)值。如DSP可以被電器廠(chǎng)商加入到它們的電器中,使電器能夠接收主人用語(yǔ)言下的指令。
把它用在電視中,用戶(hù)就可以直接告訴它開(kāi)機、關(guān)機或切換頻道。
三款SDK產(chǎn)品中,分別面向通信/網(wǎng)絡(luò )、嵌入式系統和PC環(huán)境。它們可以讓手機、掌上電腦、PC軟件開(kāi)發(fā)商輕易地在相應的設備中加入語(yǔ)音控制功能。
“2000年下半年,我們開(kāi)始考慮語(yǔ)音識別的應用問(wèn)題,最初的考慮是把語(yǔ)音識別技術(shù)做成SDK,通過(guò)許可證的方式讓各軟件開(kāi)發(fā)商使用。”也就在這個(gè)時(shí)候,自動(dòng)化所下屬的北京中科模識科技有限公司(簡(jiǎn)稱(chēng)模識科技)成立了。“我們的想法是把一些可以在半年左右推向市場(chǎng)的技術(shù)通過(guò)模識科技的市場(chǎng)化運作,把它推出去。”徐波的想法很直接,也很務(wù)實(shí)。
此后,模識科技與市場(chǎng)上的其他企業(yè)也展開(kāi)了一系列的合作,如針對具有語(yǔ)音識別能力的XML平臺的開(kāi)發(fā),自動(dòng)化所就與中文之星及Intel展開(kāi)了全面的合作。它們三者中,模識科技負責語(yǔ)音識別引擎的開(kāi)發(fā),中文之星負責XML平臺級的軟件開(kāi)發(fā),而Intel負責架構的設計和應用市場(chǎng)的支持。這種合作為產(chǎn)品的順利出臺鋪平了道路。
2001年,自動(dòng)化所開(kāi)始考慮開(kāi)發(fā)一種獨立于軟件平臺的硬件語(yǔ)音識別產(chǎn)品。它們通過(guò)與上海廣電信息股份有限公司和粵TCL聯(lián)合開(kāi)發(fā)完成了語(yǔ)音遙控器。它將使人們可以用語(yǔ)音來(lái)控制家用電器。“下一步我們將把DSP板卡做成語(yǔ)音識別芯片,這樣一方面可以降低成本,另一方面也將促進(jìn)語(yǔ)音識別技術(shù)的大規模應用。”徐波的話(huà)音里透露出看到希望時(shí)的興奮,“語(yǔ)音識別技術(shù)是一種基礎性技術(shù),它現在也是一種戰略性技術(shù)。未來(lái)的各種隨身設備都將允許人們用語(yǔ)音來(lái)控制和操作,它不僅僅是在PC的輸入方法中一種‘錦上添花’的技術(shù),而是不可或缺的技術(shù)。”徐波多次強調信息設備的多模態(tài)交互能力,在他的心目中,人們在使用設備時(shí)往往希望借助畫(huà)面、聲音、手寫(xiě)、鍵盤(pán)等多種方式,以便人們更方便地使用它。
對自動(dòng)化所來(lái)說(shuō),這僅僅是一個(gè)開(kāi)頭,它的語(yǔ)音識別技術(shù)還有很多的應用領(lǐng)域,而這些領(lǐng)域的應用要求它更加廣泛地開(kāi)展合作。事實(shí)也正是如此,模識科技與更多企業(yè)在不同領(lǐng)域的合作也正在商洽之中。也許,這是一條走得通的路。
產(chǎn)品檔案
Pattek語(yǔ)音識別產(chǎn)品
Pattek是今年6月底中科院自動(dòng)化所推出的語(yǔ)音識別產(chǎn)品,它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款產(chǎn)品。其中Pattek ASR/C2.0是面向計算資源要求較為苛刻的嵌入式系統的SDK,Pattek ASR/T2.0是面向通信和網(wǎng)絡(luò )應用的SDK,Pattek ASR/P2.0是面向PC平臺的SDK,Pattek DSP/A1.3則是面向嵌入式環(huán)境的硬件語(yǔ)音識別板卡。
這些產(chǎn)品的特點(diǎn)在于識別率高,對環(huán)境噪聲和口音有很強的適應能力。其中,面向嵌入式系統的Pattek ASR/C2.0對系統要求很低,它對內存資源的占用小于1MB,能運行于所有基于Windows CE操作系統的嵌入式產(chǎn)品中。Pattek ASR/T2.0可以支持多服務(wù)器和分布式語(yǔ)音識別應用,單個(gè)服務(wù)器CPU可以同時(shí)處理16路語(yǔ)音輸入,它將主要應用于各種行業(yè)的呼叫中心,代替一些人工服務(wù)。面向PC環(huán)境的Pattek ASR/P2.0可以應用于基于PC的各種應用,如語(yǔ)音玩具、語(yǔ)音教學(xué)、語(yǔ)音多媒體信息查詢(xún)等。Pattek DSP/A1.3可以獨立地嵌入到不同設備和系統中,提供完整的嵌入式語(yǔ)音識別解決方案。
計算機世界(www.ccw.com.cn)
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
闽侯县|
太白县|
噶尔县|
望谟县|
通化市|
炎陵县|
普定县|
米脂县|
仁寿县|
吉林市|
彭水|
永仁县|
恩平市|
四子王旗|
类乌齐县|
平和县|
陇南市|
厦门市|
顺昌县|
中牟县|
甘孜县|
宜兰县|
尚义县|
浦江县|
长海县|
广东省|
綦江县|
察雅县|
新泰市|
全南县|
高邑县|
依安县|
仪陇县|
兰考县|
虹口区|
景谷|
宜章县|
贵溪市|
区。|
溧水县|
绵竹市|
http://444
http://444
http://444
http://444
http://444
http://444