首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>Nuance

語(yǔ)音識別技術(shù):讓你的智能手機更聰明

2011/03/31

  當語(yǔ)音識別技術(shù)最早開(kāi)始被應用到電腦桌面時(shí),不少人對這項技術(shù)信心十足,認為將它全面替代鍵盤(pán)和鼠標,開(kāi)啟一個(gè)新的交互時(shí)代。多年過(guò)去了,這一幕始終沒(méi)有出現,語(yǔ)音識別技術(shù)始終處于不溫不火的狀態(tài)。而現在,隨著(zhù)智能手機的流行,語(yǔ)音識別技術(shù)重新看到了成為主流應用的希望。這一次,其應用和研發(fā)的推動(dòng)力明顯不同于電腦領(lǐng)域。

  在手機上更有市場(chǎng)

  語(yǔ)音識別最早出現在20世紀50年代,進(jìn)入60年代早期,IBM曾研究出一種可以識別16個(gè)單詞的設備,并且能做簡(jiǎn)單的算術(shù)運算。到20世紀80年代美國Dragon Systems公司推出了首個(gè)面向PC的語(yǔ)音識別技術(shù)DragonDictate。它只能識別單個(gè)單詞,要求一次只讀一個(gè)。現在這個(gè)產(chǎn)品還在(屬于Nuance公司),已經(jīng)有了11版,可以識別正常語(yǔ)速的對話(huà)。

  語(yǔ)音識別之所以一直難以在桌面領(lǐng)域流行,有兩個(gè)重要限制因素。首先,為了保證識別迅速而且準確,系統必須接受訓練以建立用戶(hù)的語(yǔ)音模式,如Vista、Windows 7自帶的語(yǔ)音識別軟件都需要給系統一定的學(xué)習時(shí)間來(lái)識別用戶(hù)的發(fā)音。第二個(gè)因素是鍵盤(pán)的流行,大多數人已經(jīng)習慣打字而不是說(shuō)話(huà)。

  而語(yǔ)音識別技術(shù)要流行需要兩個(gè)條件:一個(gè)是語(yǔ)音識別軟件簡(jiǎn)單易用,另一個(gè)是某種場(chǎng)合只能說(shuō)話(huà)而使用鍵盤(pán)很不方便。而這種場(chǎng)景已經(jīng)出現,并且出現了很長(cháng)時(shí)間,這就是移動(dòng)電話(huà)領(lǐng)域。

  Nuance產(chǎn)品和市場(chǎng)高級副總裁Matt Revis解釋了桌面和移動(dòng)環(huán)境的不同:“桌面是一個(gè)固定的環(huán)境,桌面環(huán)境中的語(yǔ)音識別技術(shù)主要用于完成辦公軟件、網(wǎng)頁(yè)瀏覽、通信移動(dòng)等應用,而移動(dòng)環(huán)境則完全不同,用戶(hù)可能在室外正處于移動(dòng)狀態(tài),而且需要免提。”

  Gartner分析師Tuong Nguyen也認為語(yǔ)音識別在移動(dòng)場(chǎng)景中更有價(jià)值:“從使用的角度看,語(yǔ)音識別在手持設備的價(jià)值要大得多。因為它提供了一個(gè)用戶(hù)友好、直觀(guān)的輸入方法,特別是對那些沒(méi)有實(shí)體鍵盤(pán)的觸摸屏手機而言。”

  由于移動(dòng)設備通常只有較小的存儲空間和比較有限的計算機能力,所以,語(yǔ)音識別在手機上的應用也經(jīng)歷了一個(gè)發(fā)展過(guò)程。早期的語(yǔ)音識別應用非常簡(jiǎn)單,主要用于識別號碼進(jìn)行撥號。當今的手機內存已經(jīng)達到了幾百兆,另外還有GB級別的閃存,對語(yǔ)音識別技術(shù)的限制已經(jīng)很少。語(yǔ)音識別能力提高的另一個(gè)條件是網(wǎng)絡(luò ),網(wǎng)絡(luò )帶寬的增加使得我們可以把一些處理放到遠程服務(wù)器上完成。

  如今手機上的語(yǔ)音識別技術(shù)已經(jīng)遠不止語(yǔ)音撥號。主要包括以下三個(gè)方面:

  聲控:語(yǔ)音撥號就是聲控功能的一種,過(guò)去聲控功能只能編輯幾條固定的命令讓手機完成指定的動(dòng)作,而現在則要強大得多,而且不用預先編輯,手機可以執行相應的動(dòng)作。比如,對手機說(shuō)“撥12345”或者“給媽媽撥號”等,它就可以完成撥號。

  語(yǔ)音轉文字:iPhone上有一個(gè)Dragon Dictation的應用程序,使用它用戶(hù)可以通過(guò)語(yǔ)音記筆記和發(fā)送電子郵件、更新Twitter;黑莓上也有類(lèi)似功能的應用,如Dragon for Email;Android手機自帶的語(yǔ)音識別軟件可以幫助用戶(hù)通過(guò)語(yǔ)音發(fā)送短信。

  翻譯:這項技術(shù)目前還不太成熟,不過(guò)也已經(jīng)有了一些應用,如iPhone上的Jibbigo就可以翻譯單詞、短語(yǔ)和簡(jiǎn)單的句子,讓雙方進(jìn)行簡(jiǎn)單的交流。

  未來(lái)發(fā)展方向

  如果要問(wèn)一個(gè)語(yǔ)音技術(shù)工程師,語(yǔ)音識別技術(shù)的未來(lái)會(huì )如何發(fā)展,他通常會(huì )說(shuō):自然語(yǔ)言處理。

  所謂自然語(yǔ)言處理就是系統能夠理解你的意思,而不只是知道你說(shuō)的是什么。在這樣的系統中,用戶(hù)可以根據自己習慣不受約束地表達自己的意思。

  不過(guò),要在對話(huà)中實(shí)現自然語(yǔ)言處理面臨雙重挑戰:首先,你必須識別出說(shuō)的什么,然后還要理解要表達什么意思。第一步現在越來(lái)越容易,而第二步卻非常困難:人們表達的意思與上下文環(huán)境高度相關(guān),即使是人類(lèi)自身也可能不能正確理解,更何況是電腦。

  好在隨著(zhù)手機功能的豐富將幫助系統理解人們所要表達的真正含義。語(yǔ)音識別系統可以把用戶(hù)所說(shuō)的話(huà)與手機所感受到的外界環(huán)境等信息結合起來(lái),從而提供更準確的結果。比如,一個(gè)用戶(hù)正在餐館就餐,他就很可能用到點(diǎn)菜、埋單、預訂、叫出租車(chē)等詞匯。

  語(yǔ)音識別技術(shù)的另一個(gè)應用針對某個(gè)用戶(hù)進(jìn)行專(zhuān)門(mén)的定制,這其實(shí)有些類(lèi)似桌面語(yǔ)音識別應用的發(fā)音學(xué)習。例如,最新版的谷歌語(yǔ)音搜索提供一個(gè)選項,允許針對用戶(hù)自己定制一個(gè)語(yǔ)音識別系統。如果用戶(hù)選擇了自己的語(yǔ)音識別系統,谷歌就會(huì )把這個(gè)用戶(hù)和他的發(fā)音方式聯(lián)系起來(lái),從而讓谷歌能夠針對這個(gè)用戶(hù)的發(fā)音建立一個(gè)專(zhuān)門(mén)的識別模型。

  語(yǔ)音識別技術(shù)的另一個(gè)未來(lái)發(fā)展領(lǐng)域是游戲,語(yǔ)音可以大大豐富游戲的娛樂(lè )性,比如,直接給宇宙飛船發(fā)命令或者對嫌疑人進(jìn)行審訊。

  總體而言,到目前為止,對于手機而言語(yǔ)音識別技術(shù)還是一項錦上添花的技術(shù)。好在這一技術(shù)正在不斷改進(jìn),為有朝一日的突破奠定基礎,而手機恰恰為這項技術(shù)的突破提供了一個(gè)非常好的舞臺。

  語(yǔ)音識別技術(shù)的工作原理

  語(yǔ)音識別技術(shù)的工作原理是利用語(yǔ)言發(fā)音的統計模型,也就是比較輸入語(yǔ)音和該語(yǔ)言的統計模型,設法找到最接近的匹配單詞。建立某個(gè)語(yǔ)言的統計模型需要大量的存儲空間,比如需要存儲該語(yǔ)言所有的基本發(fā)音、所有單詞以及所有單詞之間可能組合在一起的發(fā)音方式,在此之上,還有口音以及因年齡、性別不同而帶來(lái)的發(fā)音差異等。

  以Google的語(yǔ)音搜索(Voice Search)為例,它需要兩個(gè)統計模型:聲學(xué)模型、語(yǔ)言模型。聲學(xué)模型是通過(guò)提取錄音和說(shuō)話(huà)者錄音的腳本來(lái)建立的,而語(yǔ)言模型主要搞清楚哪些單詞最有可能跟在另外一些單詞之后,以提高識別的準確性。

計世網(wǎng)



相關(guān)閱讀:
iPad2使用Dragon Dictation語(yǔ)音識別應用軟件 2011-03-25
聲龍聽(tīng)寫(xiě)躍居中國App Store商業(yè)類(lèi)應用軟件榜首 2011-03-10
Nuance“聲龍”聽(tīng)寫(xiě)與搜索登錄中國 2011-03-08
楊文弘:Nuance滑行輸入改變用戶(hù)體驗 2011-01-17
Nuance:車(chē)載信息平臺邁入語(yǔ)音時(shí)代 2010-12-27

熱點(diǎn)專(zhuān)題:  語(yǔ)音合成TTS 語(yǔ)音識別ASR    移動(dòng)互聯(lián)網(wǎng)
分類(lèi)信息:  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  CTI文摘_與_移動(dòng)  CTI文摘_與_CTI平臺技術(shù)  移動(dòng)_與_CTI平臺技術(shù)
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 闻喜县| 封开县| 宁都县| 五峰| 安远县| 瑞金市| 兴隆县| 泽州县| 湟中县| 江油市| 普陀区| 崇信县| 梧州市| 高密市| 延长县| 乐都县| 宁陕县| 永靖县| 哈巴河县| 汾阳市| 定远县| 保靖县| 万荣县| 尖扎县| 资阳市| 拉萨市| 施秉县| 临桂县| 和平县| 屯留县| 六枝特区| 阳谷县| 遂溪县| 湖州市| 襄汾县| 横山县| 缙云县| 昆山市| 白朗县| 延长县| 茌平县| http://444 http://444 http://444 http://444 http://444 http://444