• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁 > 技術(shù) > 技術(shù)文摘 > 語音識別 理想與現(xiàn)實(shí)的距離

    語音識別 理想與現(xiàn)實(shí)的距離

    2007-01-19 00:00:00   作者:   來源:   評論:0 點(diǎn)擊:



      讓機(jī)器能夠聽懂人類的語言,一直以來都是人類夢寐以求的愿望。在今天,語音識別到底離我們有多遠(yuǎn)?
      很小的時(shí)候愛看科幻小說,在那樣的小說中,曾經(jīng)看到過科幻小說家預(yù)言未來的人會長成什么樣子。按照達(dá)爾文的進(jìn)化理論,未來的人腦袋將會變得極其之大,而四肢則漸漸退化。因?yàn)槿祟愅ㄟ^聰明的大腦,逐步讓四肢從繁瑣的工作中解放出來,最終就會變成腦袋龐大而四肢退化的模樣。而語音識別(Speech Recognition)就是在這種科幻進(jìn)程中解放我們雙手的一項(xiàng)重要技術(shù)。
      讓機(jī)器直接能夠聽懂人類的語言,一直以來都是人類夢寐以求的愿望。可是語音識別技術(shù)雖行之有年, 但進(jìn)展卻似乎緩慢。當(dāng)記者走進(jìn)中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室,才切身體會到,其實(shí)語音識別離我們并不遙遠(yuǎn)。
    哼唱識別系統(tǒng)
      不久前,中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室開發(fā)出了一種“哼唱檢索系統(tǒng)”,無需鼠標(biāo)鍵盤,對著話筒哼唱出歌曲的旋律就可以檢索到哼唱歌曲的曲名。當(dāng)記者在中科信利語音實(shí)驗(yàn)室的會議室,面對屏幕,拿著話筒哼起一段鄧麗君的《甜蜜蜜》的旋律時(shí),大概只用了6~10秒,檢索系統(tǒng)就自動檢索出來了所哼唱旋律的歌名,并附上了完整的歌詞。
      “哼唱檢索系統(tǒng)是通過旋律匹配進(jìn)行檢索的。”博士畢業(yè)論文專門研究哼唱檢索系統(tǒng)的語音助理研究員李明介紹說。哼唱檢索系統(tǒng)根據(jù)歌曲旋律的走勢來匹配檢索,而不是通過音調(diào)。因?yàn)橐粽{(diào)的基準(zhǔn)會有所不同,這就大大降低了檢索識別的適用性。所以,對于哼唱檢索系統(tǒng)的使用者而言,哼唱節(jié)奏的快慢,以及記得歌詞與否,都對檢索識別沒有影響。正是因?yàn)榇耍@套系統(tǒng)在由美國伊利諾斯大學(xué)負(fù)責(zé)主辦的國際音樂信息檢索評測比賽(MIREX)中,以92%的準(zhǔn)確度獲得了第一名的好成績。
      任何系統(tǒng)都不能只存在于實(shí)驗(yàn)室中,哼唱檢索系統(tǒng)業(yè)理所當(dāng)然要走出實(shí)驗(yàn)室。“我們的哼唱檢索系統(tǒng)已經(jīng)在河北等地的移動彩鈴業(yè)務(wù)中應(yīng)用了。”中科信利語音實(shí)驗(yàn)室研究室主任顏永紅說。“用戶通過哼唱一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,然后進(jìn)行點(diǎn)播和下載。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進(jìn)入了成熟階段。”顏永紅還表示,實(shí)驗(yàn)室正在著手和互聯(lián)網(wǎng)幾大音樂內(nèi)容提供商合作,相信在不久的將來,就可以實(shí)現(xiàn)在互聯(lián)網(wǎng)上哼唱一段旋律來檢索歌曲名稱。
    提高識別率
      對于中科信利語音實(shí)驗(yàn)室研究出來的這套哼唱識別系統(tǒng),還有一個(gè)更好的應(yīng)用前景就是在KTV等場所的歌曲檢索。對于愛好唱歌的人而言,一定都有過這樣的經(jīng)歷: 往往熟悉一首歌曲的旋律,卻記不住歌曲的名稱。特別是在KTV點(diǎn)唱時(shí),K友常常會遇到這樣的問題,想唱卻又找不到歌名。哼唱檢索系統(tǒng)正好解決了這樣的問題。試想,當(dāng)有一天,我們在KTV中點(diǎn)歌時(shí),不必再通過繁瑣的手動操作界面,而只需要通過口頭來完成,那種感覺又豈是方便兩個(gè)字能簡單概括的。而這種搜索模式的實(shí)現(xiàn),其實(shí)只要在KTV的點(diǎn)歌系統(tǒng)中嵌入哼唱檢索系統(tǒng)的技術(shù)就可以了。
      但是,中科信利語音實(shí)驗(yàn)室開發(fā)出來的哼唱檢索系統(tǒng)對哼唱的環(huán)境是有所要求的。“我們的檢索環(huán)境要求是要相對安靜的。”李明這樣介紹說。那么,對于KTV中過于嘈雜的語音環(huán)境,哼唱檢索系統(tǒng),如何發(fā)揮他的威力呢?
      “目前語音識別技術(shù)需要解決的問題,一個(gè)是對噪音環(huán)境的處理,一個(gè)是對不同口音的識別,再一個(gè)就是要不斷提出好的算法。”顏永紅這樣對記者說到。語音識別技術(shù)的基本原理就是對輸入的語音信號進(jìn)行分析,抽取語音特征參數(shù)與存儲器中的語音模板的參數(shù)進(jìn)行匹配識別。因此,語音識別技術(shù)不僅對識別的背景、噪聲干擾有要求,同時(shí),對說話者的清晰程度、連貫程度,以及是否口語化是否帶口音,也都有要求。這些正是導(dǎo)致語音識別技術(shù)識別率不高的主要原因,也是導(dǎo)致語音識別技術(shù)一直沒有能夠大規(guī)模展開應(yīng)用的瓶頸。
      如何提高識別率一直都是語音識別技術(shù)不斷挑戰(zhàn)的問題。基于目前的語音識別技術(shù),語音識別的應(yīng)用,應(yīng)該是相對小眾的,而且面對特殊人群的。例如,某一領(lǐng)域,相對安靜背景的語音識別的應(yīng)用,又或,就目前而言,語音識別技術(shù)對于盲人群體的作用與幫助要大大高于一般的正常人。
    語音識別搜索
      語音識別技術(shù)一個(gè)很有效的應(yīng)用,就是語音識別搜索。“語音識別搜索主要有三種方式: 原聲搜索、旋律匹配搜索和語音搜索。”中科信利語音實(shí)驗(yàn)室副研究員趙慶衛(wèi)博士告訴記者。原聲搜索是針對原始聲音進(jìn)行完整匹配的搜索。除人聲外,其他周遭的一切聲音都可以針對原聲搜索出其位置。而哼唱檢索系統(tǒng)就是典型的旋律匹配搜索。至于語音搜索,是指針對某一特定人員的語音進(jìn)行篩選搜索的方式。
      在信息瘋狂膨脹的時(shí)代,對于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。而且,信息已經(jīng)不單純是以往的純文本,而是逐步發(fā)展到了音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音、視頻文件已經(jīng)不足以滿足用戶的需求。通過語音識別對音、視頻內(nèi)容的搜索已經(jīng)開始廣泛應(yīng)用。
      美國的Blinkx就是最先開始應(yīng)用語音識別進(jìn)行內(nèi)容搜索的網(wǎng)站之一。而在國內(nèi),openv.tv也露出了做專業(yè)的電視及視頻搜索引擎的意圖。當(dāng)文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時(shí)候,微軟、Google這些技術(shù)巨頭也開始瞄準(zhǔn)未來的語音、視頻搜索市場。
    未來無限大
      語音識別芯片的應(yīng)用范圍其實(shí)十分廣闊: 電話通信中的語音撥號、汽車的語音控制、工業(yè)控制及醫(yī)療領(lǐng)域的人機(jī)語音交互界面、個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面、語音智能玩具、家電的語音遙控等。解放雙手,豐富溝通,是在這些領(lǐng)域應(yīng)用的共性。
      除此之外,語音識別還可以給我們帶來更多的便利。“語音識別的關(guān)鍵一個(gè)是發(fā)音評估,一個(gè)是內(nèi)容識別。”趙慶衛(wèi)說。除了哼唱檢索系統(tǒng)以外,中科信利語音實(shí)驗(yàn)室在音頻水印、發(fā)音糾正、語種識別等方面都有成果。音頻水印是以編碼方式嵌入音、視頻文件,主要應(yīng)用于音、視頻文件的版權(quán)保護(hù)、保密通信以及廣播監(jiān)聽。發(fā)音糾正軟件可以對說話人的發(fā)音進(jìn)行評估和分析,特別有助與用戶的語言學(xué)習(xí)。據(jù)趙慶衛(wèi)介紹,這種發(fā)音糾正已經(jīng)用于國內(nèi)部分地區(qū)推廣普通話的進(jìn)程中了。
      “市場每年;都在變大。”談及語音識別市場的未來時(shí),顏永紅如是說。根據(jù)半導(dǎo)體行業(yè)的摩爾定律,硬件成本過高是導(dǎo)致語音識別技術(shù)無法在家電等領(lǐng)域應(yīng)用的主要原因。“早在2002年,技術(shù)上就已經(jīng)實(shí)現(xiàn)在電話上應(yīng)用語音識別技術(shù)了,但是卻只能用在部分高端手機(jī)上。”顏永紅說。
      中科信利語音實(shí)驗(yàn)室目前一直在和致力于芯片技術(shù)的廠商合作,從而有效地解決了語音處理過程中遇到的噪聲等問題,提高了聲學(xué)語音傳達(dá)的準(zhǔn)確性,與語音識別軟件技術(shù)形成優(yōu)勢互補(bǔ)。
      “希望10年到20年的時(shí)間內(nèi),語音識別技術(shù)會有長足的發(fā)展。”顏永紅充滿期盼地說道。也許過不了多久,面貌煥然一新、同時(shí)蘊(yùn)藏巨大商機(jī)的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢,其實(shí)理想和現(xiàn)實(shí)的距離并不如我們想象的那么遙遠(yuǎn)。

    計(jì)算機(jī)世界網(wǎng)

    相關(guān)閱讀:

    分享到: 收藏

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 格尔木市| 罗江县| 湘西| 西丰县| 安国市| 东至县| 庄浪县| 财经| 漳浦县| 涪陵区| 安顺市| 雅江县| 富顺县| 德江县| 郸城县| 仁寿县| 铁力市| 鄂尔多斯市| 分宜县| 永新县| 柞水县| 灌云县| 牙克石市| 张家口市| 湖北省| 察隅县| 阳高县| 博兴县| 罗江县| 治多县| 林甸县| 安福县| 柳江县| 巴马| 长子县| 牡丹江市| 万宁市| 武功县| 呼玛县| 达拉特旗| 平陆县| http://444 http://444 http://444 http://444 http://444 http://444