你好!新語(yǔ)音識別時(shí)代
唐瀟霖 2006/06/01
語(yǔ)音識別技術(shù)真有那么“風(fēng)花雪月”嗎?也許過(guò)不了多久,面貌煥然一新、同時(shí)蘊藏巨大商機的語(yǔ)音識別應用熱潮,將會(huì )徹底改變人們的思維定勢 走出實(shí)驗室
語(yǔ)音識別技術(shù)真有那么“風(fēng)花雪月”嗎?實(shí)際上,這項技術(shù)一直都是計算機研究領(lǐng)域內的一個(gè)熱門(mén)課題,也一向倍受IBM、微軟等等IT巨頭器重,相關(guān)研究成果層出不窮。隨著(zhù)語(yǔ)音識別技術(shù)在最近幾年逐漸向移動(dòng)通訊、互聯(lián)網(wǎng)等領(lǐng)域,以及各種不方便通過(guò)手寫(xiě)輸入與機器進(jìn)行“交流”的手持設備,如車(chē)載GPS定位系統、娛樂(lè )系統等硬件領(lǐng)域滲透,供其施展的舞臺日益寬廣起來(lái)。也許過(guò)不了多久,面貌煥然一新、同時(shí)蘊藏巨大商機的語(yǔ)音識別應用熱潮,將會(huì )徹底改變人們的思維定勢。
只需撥打一個(gè)號碼,就可以搞定問(wèn)路、訂票、美食推薦、家政服務(wù)、娛樂(lè )休閑、火車(chē)時(shí)刻等等信息?對,這是中國電信最近推出的一項名為“號碼百事通”的新業(yè)務(wù),也是一款在挖掘和整合用戶(hù)號碼信息的基礎上,針對用戶(hù)的模糊查詢(xún)等信息服務(wù)需求提供的新產(chǎn)品。因為是模糊查詢(xún),所以現行的“號碼百事通”業(yè)務(wù)還需要靠人工坐席來(lái)實(shí)現,這必然需要投入大量資金來(lái)建設和不斷完善呼叫中心。為解決這一問(wèn)題,中國電信找到了中科院聲學(xué)所。利用聲學(xué)所的技術(shù),中國電信不久后將在“號碼百事通”系統中引入語(yǔ)音搜索引擎,可以根據人們打入電話(huà)的聲音來(lái)識別、搜索出客戶(hù)需要查詢(xún)的信息并自動(dòng)提供。
同樣是電信增值業(yè)務(wù),目前江蘇移動(dòng)、山東移動(dòng)等電信運營(yíng)商,已經(jīng)實(shí)現了用戶(hù)通過(guò)“哼”一段旋律,就能查找到自己聽(tīng)過(guò)卻不知道名稱(chēng)的歌曲或彩鈴,并且進(jìn)行點(diǎn)播和下載的新業(yè)務(wù)。這種大規模的商業(yè)應用,已經(jīng)進(jìn)入了成熟階段。中科院聲學(xué)所語(yǔ)音實(shí)驗室的潘接林副主任對《互聯(lián)網(wǎng)周刊》表示,在商業(yè)應用上,這套系統最關(guān)鍵的部分是解決了計費環(huán)節的問(wèn)題,電信運營(yíng)商和聲學(xué)所,由此可以按照每條查詢(xún)的下載量來(lái)進(jìn)行按比例分賬。目前,聲學(xué)所正在與互聯(lián)網(wǎng)上的幾大音樂(lè )內容提供商合作,不久后將可以實(shí)現在互聯(lián)網(wǎng)上,通過(guò)唱出一段旋律的方式來(lái)進(jìn)行音樂(lè )搜索。
抓住語(yǔ)音搜索的商機
今年4月11日,Google向美國專(zhuān)利署遞交了一份語(yǔ)音技術(shù)專(zhuān)利申請,其中涵蓋了Google在語(yǔ)音識別方面的大量技術(shù)發(fā)明。許多經(jīng)濟觀(guān)察家們認為,Google有可能憑借此項專(zhuān)利,又一次牢牢控制住搜索引擎技術(shù)發(fā)展的前沿陣地。
而一直視Google為最大潛在競爭對手的微軟,從來(lái)都對語(yǔ)音識別技術(shù)格外重視。微軟CEO鮑爾默在5月22日訪(fǎng)華期間對記者說(shuō),在微軟的技術(shù)創(chuàng )新方向上,有四個(gè)重要的落點(diǎn),除了網(wǎng)絡(luò )服務(wù)、安全和新設備等領(lǐng)域之外,還包括了自然語(yǔ)言理解。“語(yǔ)音識別技術(shù)在今后幾年內會(huì )變得越來(lái)越重要。”鮑爾默解釋說(shuō)。
其實(shí),也正因為微軟對該領(lǐng)域重兵布防,所以在去年發(fā)生了“李開(kāi)復事件”之后,鮑爾默才會(huì )顯得分外惱怒。跳槽到Google的微軟原全球副總裁李開(kāi)復在美國卡耐基梅隆大學(xué)讀書(shū)的時(shí)候,就選擇了語(yǔ)音識別技術(shù)作為研究方向,后來(lái)順理成章的成為國際知名的語(yǔ)音識別技術(shù)專(zhuān)家,進(jìn)入微軟后一直主導著(zhù)微軟交互式語(yǔ)言及人機界面的研發(fā)工作。如此重要和關(guān)鍵的人物跑去了競爭對手那里,也難怪微軟要為此訴諸法庭。
在文字搜索已經(jīng)發(fā)展到幾乎沒(méi)有上升空間的時(shí)候,這些技術(shù)巨頭顯然已經(jīng)瞄準了未來(lái)的語(yǔ)音、視頻搜索市場(chǎng)。微軟曾把語(yǔ)音識別的未來(lái)應用重心放在計算機的聽(tīng)寫(xiě)機上,即類(lèi)似于IBM
ViaVoice的研究方向,希望把人的語(yǔ)音直接轉換成文字。微軟曾在其Word軟件中嵌入了這種功能,但并未實(shí)現商業(yè)化。而在2006年的“微軟亞洲研究院創(chuàng )新日”上,微軟一口氣介紹了11項與搜索相關(guān)的技術(shù),其中“點(diǎn)播視/音頻搜索”更是讓人眼前一亮。可以想見(jiàn),在爭奪未來(lái)語(yǔ)音識別搜索技術(shù)話(huà)語(yǔ)權的問(wèn)題上,微軟決不會(huì )坐視Google去申請專(zhuān)利而無(wú)動(dòng)于衷。
下一座技術(shù)堡壘
對于微軟的語(yǔ)音識別技術(shù),中科院聲學(xué)所下屬的中科信利技術(shù)有限公司高級副總裁劉建認為,目前微軟的語(yǔ)音識別技術(shù)還處于技術(shù)跟蹤階段,而在商用化的道路上,中科院的技術(shù)目前在國際上已經(jīng)走在了前列。目前世界上只有少數幾家公司能夠形成核心技術(shù),而中科院聲學(xué)所是國內唯一完全擁有核心自主技術(shù)的單位,目前其最大的競爭對手主要是美國的Nuance公司。
Nuance由原來(lái)國際上的四大語(yǔ)音公司以及其它幾家在語(yǔ)音技術(shù)方面有特點(diǎn)的語(yǔ)音公司整合而成。自合并以來(lái),Nuance已發(fā)展成為全球首屈一指的語(yǔ)音解決方案供應商,它能夠提供從網(wǎng)絡(luò )到IVR(Interactive
Voice Response,互動(dòng)式語(yǔ)音應答)的應用方案。早在1996年9月,嘉信理財(Charles Schwab)公司所開(kāi)通的首個(gè)大規模商用的語(yǔ)音識別應用系統:股票報價(jià)系統,其背后的技術(shù)就是由Nuance提供的。
據劉建介紹,語(yǔ)音識別技術(shù)大致可以分為兩個(gè)發(fā)展方向:一是大詞匯量連續語(yǔ)音識別系統,主要應用于計算機的聽(tīng)寫(xiě)機,以及與電話(huà)網(wǎng)或者互聯(lián)網(wǎng)相結合的語(yǔ)音信息查詢(xún)服務(wù)系統,這些系統都是在計算機平臺上實(shí)現的;另外一個(gè)重要的方向是小型化、便攜式語(yǔ)音產(chǎn)品的應用,如手機撥號、汽車(chē)設備的語(yǔ)音控制、智能玩具、家電遙控等方面的應用,這些應用系統大都使用專(zhuān)門(mén)的硬件系統實(shí)現,特別是近幾年來(lái)迅速發(fā)展的語(yǔ)音信號處理專(zhuān)用芯片和語(yǔ)音識別片上系統的出現,都為語(yǔ)音識別的廣泛應用創(chuàng )造了有利的條件。
現在,機器識別人的單詞式的命令和指令,已經(jīng)不再困難,并且已經(jīng)開(kāi)始了商用,例如中科信利幾個(gè)月后將推出的具有語(yǔ)音識別功能的芯片,就可以應用在家電遙控、手機、汽車(chē)GPS、智能玩具等各種小型設備中。中信科利稱(chēng),其2006年的預期收入將達到1000萬(wàn)元,較上年度有100%的增長(cháng)。而另一種則是連續語(yǔ)音識別系統,比如說(shuō)如果兩個(gè)人在聊天,那么這些連貫的句子,將很難被機器識別,這也是語(yǔ)音識別技術(shù)領(lǐng)域內未來(lái)的研究重點(diǎn)。
互聯(lián)網(wǎng)周刊
北京中科信利語(yǔ)音識別技術(shù)成功應用到中移動(dòng)彩鈴項目 2007-08-02 |
中科院研發(fā)語(yǔ)音識別搜索新技術(shù) 2006-10-31 |
富迪、中科共開(kāi)音頻應用 2006-05-16 |
音樂(lè )快搜:中科信利識別引擎賦予彩鈴平臺全新應用模式 2005-09-13 |
清唱點(diǎn)歌:中科信利識別引擎賦予彩鈴平臺全新應用模式 2005-07-26 |