• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 專(zhuān)家觀(guān)點(diǎn) >

    “語(yǔ)音進(jìn)化論”干貨分享:智能語(yǔ)音的前世今生

    2016-10-10 16:14:50   作者:   來(lái)源:極客網(wǎng)   評論:0  點(diǎn)擊:


      9月28日,京東智能在北京京東JD+智能奶茶館舉辦“遇見(jiàn)未來(lái)-智能語(yǔ)音進(jìn)化論”主題分享活動(dòng),旨在通過(guò)對智能語(yǔ)音技術(shù)、應用場(chǎng)景及未來(lái)趨勢的分析和討論助推行業(yè)發(fā)展。
      會(huì )上,靈隆科技首席科學(xué)家湯博士就智能語(yǔ)音技術(shù)的歷史及行業(yè)的發(fā)展進(jìn)程進(jìn)行了生動(dòng)的解析,同時(shí),科大訊飛云平臺事業(yè)部商務(wù)總監湯熙、北京小魚(yú)兒科技合伙人兼銷(xiāo)售市場(chǎng)副總裁李傳剛、北京方正信息技術(shù)有限公司數碼外設事業(yè)部總經(jīng)理余斌、京東智能市場(chǎng)總監李俊周等行業(yè)大咖也對智能語(yǔ)音的現狀及未來(lái)趨勢進(jìn)行了圓桌分享。
    \
    靈隆科技首席科學(xué)家湯博士
      以下是靈隆科技首席科學(xué)家湯博士“智能語(yǔ)音的前世今生”演講實(shí)錄
      從一個(gè)參與者角度,對人工智能尤其是語(yǔ)音的發(fā)展過(guò)程還是比較清楚的,今天我就來(lái)跟大家分享一下,我的一些感悟。
      這個(gè)題目是《智能語(yǔ)音的前世今生》。我們都知道,語(yǔ)音交互是一個(gè)很自然的一種需求,人們以前從鍵盤(pán)輸入到鼠標,之后是語(yǔ)音,還有圖象。2000年左右,比爾蓋茨說(shuō)語(yǔ)音交互會(huì )是下一代的主要交互手段,我個(gè)人覺(jué)得可能不是主要,而是主要之一,用戶(hù)對于語(yǔ)音自然交互的需求是確實(shí)存在的。
      大家都在講,到底什么是語(yǔ)音技術(shù)?其實(shí)語(yǔ)音技術(shù)包含了很多小門(mén)類(lèi),比如說(shuō)最主要的是語(yǔ)音識別-ASR,第二個(gè)是語(yǔ)音合成-TTS,這是目前知道的最多的兩種語(yǔ)音技術(shù)。除此之外還有別的語(yǔ)音技術(shù):語(yǔ)音轉換,聲紋識別,聽(tīng)音識歌,語(yǔ)音標準化判斷等等。
      1、語(yǔ)音識別是什么
      我這次重點(diǎn)講的是語(yǔ)音識別和合成。首先講語(yǔ)音識別,最早的語(yǔ)音識別應該是50年代的貝爾實(shí)驗室Audry系統,能識別十個(gè)英文數字,在科技史上大家都知道,有兩個(gè)著(zhù)名的實(shí)驗室,一個(gè)是貝爾實(shí)驗室,一個(gè)是施樂(lè )公司的實(shí)驗室。貝爾的人當初就是覺(jué)得有趣就做了這個(gè)研究,但光是好玩、有趣還不能推動(dòng)這個(gè)行業(yè)的發(fā)展,美國空軍在60年代初提出了需求,那個(gè)時(shí)候進(jìn)入了噴氣式飛機的超音速時(shí)代,在飛行中會(huì )出現超過(guò)了7個(gè)G的過(guò)載,那個(gè)時(shí)候因為抗壓服的性能還不適很好,飛行員身體被壓著(zhù),無(wú)法對飛機進(jìn)行有效操控,這個(gè)時(shí)候美國空軍就提出一個(gè)需求:能不能用語(yǔ)音來(lái)控制飛機?也正因為這個(gè)原因,從那個(gè)時(shí)候一直到現在,美國國防部的DARPA都一直在支持語(yǔ)音技術(shù)的研究,到現在應該是50多年了。
      所以從60年代開(kāi)始大家開(kāi)始做各種各樣的語(yǔ)音識別的研究,提出了各種各樣的方案,這時(shí)候做的比較成熟一點(diǎn)的是小詞匯表的孤立詞識別,支持一些命令詞的識別,這就是當時(shí)的水平。
      到了70、80年代就出現了很大的兩個(gè)進(jìn)步,語(yǔ)音識別中有很多技術(shù)問(wèn)題,其中的兩個(gè)主要問(wèn)題是語(yǔ)音模型和語(yǔ)言模型的建立,在70年代有很大的突破,IBM,提出了用HMM來(lái)解決語(yǔ)音模型的問(wèn)題,取得了很好的效果。而在80年代提N元統計模型也被提出,用來(lái)解決語(yǔ)言模型的問(wèn)題,這兩個(gè)方法成為了此后30年語(yǔ)音識別技術(shù)的主流方法。
      在90年代初,卡耐基梅隆大學(xué)的李開(kāi)復博士領(lǐng)頭開(kāi)發(fā)了Sphinx系統,這是一個(gè)歷史性的進(jìn)步,這是HMM和N元模型結合在一起語(yǔ)音識別系統,它是第一個(gè)非特定人大詞匯量的語(yǔ)音識別系統。
      這個(gè)系統是由大學(xué)開(kāi)發(fā)出來(lái)的實(shí)驗性系統,運行在服務(wù)器上,其實(shí)用價(jià)值有限。1997年IBM,推出了第一款商品化的語(yǔ)音識別系統ViaVoice,預裝在當時(shí)的主流PC機上,有十幾種語(yǔ)言的版本,那時(shí)候非常轟動(dòng),可以說(shuō)90年代是語(yǔ)音識別技術(shù)發(fā)展的第一次高潮,有大量公司投入這個(gè)領(lǐng)域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
      2、第一次高潮后的低谷:標志是大量公司紛紛退出這個(gè)領(lǐng)域
      接下來(lái)是高潮后的低潮。2002-2011年。當時(shí)遇到的主要問(wèn)題是語(yǔ)音技術(shù)本身遇到瓶頸,對于以朗讀方式輸入正規文本的語(yǔ)音識別率相當高,但是對于日常口語(yǔ)化的輸入則識別率不高;另外當時(shí)對用戶(hù)體驗不夠重視,沒(méi)有從用戶(hù)的需求出發(fā)研發(fā)合適的產(chǎn)品。
      很多在當初投入語(yǔ)音研發(fā)的公司都退出了這個(gè)領(lǐng)域,比如說(shuō)我們知道的摩托羅拉、英特爾、諾基亞,甚至開(kāi)山鼻祖IBM,都紛紛退出這個(gè)行業(yè)的研究。
      這個(gè)行業(yè)也有堅守者,誰(shuí)呢?微軟,還有一些后來(lái)新起的互聯(lián)網(wǎng)公司對這個(gè)領(lǐng)域很感興趣,開(kāi)始投入谷歌、Siri、百度加入了這個(gè)領(lǐng)域,另外一些科技企業(yè)也投入這個(gè)領(lǐng)域的研究,如訊飛。
      但是在這個(gè)所謂的低潮期階段,研究人員也沒(méi)有閑著(zhù),做了一個(gè)非常重要的兩件事,一件是開(kāi)源工具,比如劍橋大學(xué)開(kāi)發(fā)的HTK,后來(lái)又有了Kaldi,Julius等工具,有了這些工具,讓語(yǔ)音技術(shù)能夠迅速的擴散。一個(gè)受過(guò)良好訓練的研究生,大概三個(gè)月的時(shí)間就可以掌握這套工具,并且可以使用它來(lái)建立比較簡(jiǎn)單的系統。
      另一件重要的事情就是數據準備,語(yǔ)音技術(shù)的開(kāi)發(fā)需要大量的訓練數據最開(kāi)始的時(shí)候,都是個(gè)公司自己去收集,費時(shí)費力。后來(lái)成立了LC—STAR、TC-STAR等技術(shù)數據聯(lián)盟,通過(guò)這個(gè)聯(lián)盟,數據得到了分享,這也為技術(shù)的擴散打下了良好的基礎。
      另外,這個(gè)時(shí)期出現了一個(gè)影響深遠的發(fā)現:深度神經(jīng)網(wǎng)絡(luò )(DNN)。2006年Hinton提出了深度神經(jīng)網(wǎng)絡(luò )的學(xué)習方法。它解決了多層神經(jīng)網(wǎng)絡(luò )的有效學(xué)習方法,而且學(xué)習算法的收斂性和層數無(wú)關(guān)。
      2011年微軟把它成功的進(jìn)行了英文語(yǔ)音識別,2012年訊飛、百度先后把DNN用于中文語(yǔ)音識別,這就導致了今天第二次語(yǔ)音識別的高潮的來(lái)臨。
      我今天主要談?wù)Z(yǔ)音識別技術(shù),DNN帶動(dòng)的人工智能領(lǐng)域的其它發(fā)展,那是另外的話(huà)題不在此展開(kāi)。第二次高潮啟動(dòng)后,大量公司加入了該領(lǐng)域進(jìn)行研究和開(kāi)發(fā)。比如Amazon,云知聲。
      3、語(yǔ)音合成是什么?
      我們再講語(yǔ)音合成。語(yǔ)音合成的三個(gè)標準,第一是可懂、第二是自然、第三是有情感,我們中文叫抑揚頓挫,是三個(gè)不同的層次。目前來(lái)說(shuō),可懂已經(jīng)不是問(wèn)題了,目前的語(yǔ)音合成水平基本上做到自然這個(gè)層次,機械味不是那么濃,現在突破的主要方向是在情感方面進(jìn)行進(jìn)一步研究和探索。
      語(yǔ)音合成的領(lǐng)域,其實(shí)起步也比較早,有的人認為是200年前歐洲開(kāi)發(fā)出用機械方式模擬人聲是最早的語(yǔ)音合成,但是如果從現代技術(shù)的角度來(lái)說(shuō),一般來(lái)說(shuō)認為是從50年代開(kāi)始,大家開(kāi)始研究用計算機技術(shù)來(lái)做語(yǔ)音合成。
      最早的方法是采用參數合成的方法。大家知道人的發(fā)聲原理,為什么能發(fā)出聲音來(lái)?三個(gè)環(huán)節,一個(gè)是振動(dòng)源。第二是聲帶,第三是聲道,人們設想分別用不同的數學(xué)公式來(lái)模擬這三個(gè)環(huán)節。然后把這三個(gè)環(huán)節串接起來(lái)就能模擬人的發(fā)聲。根據這個(gè)原理,7、80年代人們發(fā)明了各種共振峰合成器,這個(gè)方法的優(yōu)勢是占用資源小,但缺點(diǎn)是可懂度低。
      到了90年代,波形拼接方法被提出。大家發(fā)現,參數合成方法怎么改進(jìn)都無(wú)法提高性能,大家就改用粗暴的方式,以中文為例,帶聲調的拼音音節有1400多個(gè),每種都錄幾十個(gè)樣本,使用的時(shí)候就把最合適的樣本調出來(lái)并拼起來(lái),形成語(yǔ)音,這種方式,很粗暴,但是有效。這里要提到科大訊飛,1999年科大訊飛成立,最開(kāi)始就是使用波形拼接的方法。這種方式要提高性能,音庫越大越好,當時(shí)最大的可能要幾十個(gè)G,在當時(shí)一般計算機都達不到這個(gè)要求,只能在電信級別的服務(wù)器上運行。
      大家開(kāi)始設想,把語(yǔ)音識別的使用的一些方法運用到合成中,人們把HMM模型引入,用來(lái)訓練語(yǔ)音庫,這樣大大減少了語(yǔ)音庫的大小,這樣就形成了可訓練的語(yǔ)音合成方法。目前這個(gè)方法是語(yǔ)音合成產(chǎn)品的主流方法,占用空間大概在幾十M,其性能不遜于波形拼接方法。
      從2014年開(kāi)始,大家開(kāi)始把深度神經(jīng)網(wǎng)絡(luò )也用在參數語(yǔ)音合成里,最新的報道DeepMind用深度神經(jīng)網(wǎng)絡(luò ),提出了語(yǔ)音合成質(zhì)量的自然度,號稱(chēng)是提高了50%。
      當然,和語(yǔ)音識別一樣,也開(kāi)發(fā)了很多的開(kāi)源工具,比如Festival,這也帶來(lái)了語(yǔ)音合成技術(shù)的快速擴散。
      4、智能語(yǔ)音是什么?
      前面講的是語(yǔ)音技術(shù),現在大家說(shuō)的更多的是智能語(yǔ)音。什么是智能語(yǔ)音?我個(gè)人理解,從兩個(gè)方向來(lái)理解,一個(gè)是說(shuō)在語(yǔ)音技術(shù)當中加入了智能的因素,比如說(shuō)前面提到的DNNN,所以說(shuō)語(yǔ)音技術(shù)智能了。
      第二個(gè)是語(yǔ)音識別技術(shù)加上了自然語(yǔ)言理解,語(yǔ)音識別只是把語(yǔ)音變成了文字,要理解文字后面的意思是什么,就需要自然語(yǔ)言理解,所以說(shuō)目前來(lái)說(shuō),如果要做語(yǔ)音產(chǎn)品,光有語(yǔ)音識別技術(shù)是不夠的,還需要自然語(yǔ)言理解,能理解你說(shuō)的話(huà),那才叫智能語(yǔ)音。
      自然語(yǔ)言處理是自然語(yǔ)言處理的一個(gè)分類(lèi)。
      自然語(yǔ)言理解目前來(lái)說(shuō)有三種方法,第一是基于規則,就是找很多的語(yǔ)言學(xué)家來(lái)歸納總結語(yǔ)言規則,所以在剛開(kāi)始的時(shí)候,在國內做自然語(yǔ)言理解的,不是中科院系統在做,而是社科院系統在做,他們有很多語(yǔ)言學(xué)家,他們總結了很多的語(yǔ)言規則出來(lái)。
      但近些年,隨著(zhù)計算機的大幅發(fā)展,用統計方法來(lái)分析語(yǔ)言成為了主流,并產(chǎn)生了一門(mén)交叉學(xué)科,叫計算語(yǔ)言學(xué)。這樣,很多不具有專(zhuān)業(yè)的語(yǔ)言學(xué)知識的計算機研究人員,都可以從事語(yǔ)言理解的研究。
      還有一種方法,就是知識圖譜的方法,它把規則和統計方法綜合起來(lái)。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 福泉市| 电白县| 涞水县| 天津市| 达日县| 新蔡县| 霍山县| 日土县| 历史| 深圳市| 昌宁县| 昆山市| 定远县| 九江市| 明溪县| 邯郸市| 边坝县| 北票市| 崇礼县| 遵义市| 巴青县| 贺州市| 章丘市| 东乌珠穆沁旗| 海淀区| 久治县| 明溪县| 隆安县| 民和| 祁连县| 会泽县| 垦利县| 巴塘县| 三门峡市| 南江县| 淳安县| 孟村| 大洼县| 巢湖市| 徐汇区| 枣庄市| http://444 http://444 http://444 http://444 http://444 http://444