• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 專(zhuān)家觀(guān)點(diǎn) >

    機器之心專(zhuān)訪(fǎng):首度揭秘地平線(xiàn)語(yǔ)音戰略與研究

    2017-01-17 10:26:15   作者:   來(lái)源:機器之心   評論:0  點(diǎn)擊:


      從創(chuàng )立之初,地平線(xiàn)的愿景就是為包括智能家電、服務(wù)機器人、自動(dòng)駕駛汽車(chē)在內的眾多設備裝上「大腦」,讓它們具有從感知、交互、理解到?jīng)Q策的智能。人機之間的自然交互一直是人工智能領(lǐng)域的一個(gè)美好愿景,而語(yǔ)音是人機交互中最重要的手段之一。
      雖然過(guò)去的一年中,我們聽(tīng)到更多的是地平線(xiàn)關(guān)于圖像、芯片方面的研究,但據機器之心了解,地平線(xiàn)在創(chuàng )立之初(2015年)就擁有了一支十分強大的語(yǔ)音團隊,很早就在進(jìn)行語(yǔ)音方面的研究,積累起獨特的技術(shù)優(yōu)勢。
      在近日,機器之心對地平線(xiàn)聯(lián)合創(chuàng )始人、算法副總裁黃暢博士以及首席語(yǔ)音算法工程師牛建偉進(jìn)行了專(zhuān)訪(fǎng),從公司的整體戰略、語(yǔ)音技術(shù)兩個(gè)角度揭開(kāi)地平線(xiàn)語(yǔ)音的神秘面紗。
    \
      黃暢博士,地平線(xiàn)機器人技術(shù)聯(lián)合創(chuàng )始人、算法副總裁。深度學(xué)習專(zhuān)家,前百度主任架構師(T10)。長(cháng)期從事計算機視覺(jué)、機器學(xué)習、模式識別和信息檢索方面的研究,作為相關(guān)學(xué)術(shù)界和工業(yè)界的知名專(zhuān)家,發(fā)表的論文被引用超過(guò)3350次,擁有多項國際專(zhuān)利。他開(kāi)發(fā)的人臉檢測技術(shù),創(chuàng )造了世界上首次計算機視覺(jué)技術(shù)被大規模應用的成功范例,占領(lǐng)80%數碼相機市場(chǎng),并且被蘋(píng)果iPhoto等諸多圖像管理軟件所采用。
    \
      牛建偉,地平線(xiàn)機器人技術(shù)首席語(yǔ)音算法工程師、語(yǔ)音識別團隊負責人。牛建偉畢業(yè)于西北工業(yè)大學(xué)語(yǔ)音識別專(zhuān)業(yè)。曾任百度語(yǔ)音技術(shù)部資深工程師,在百度期間研發(fā)了國內第一個(gè)采用深度學(xué)習技術(shù)的大規模商用語(yǔ)音識別系統,并建立了一套國內領(lǐng)先的離線(xiàn)語(yǔ)音識別系統。牛建偉2015年加入地平線(xiàn)后,主導搭建了地平線(xiàn)的語(yǔ)音識別系統。
      地平線(xiàn)的語(yǔ)音戰略
      機器之心:請黃暢博士介紹一下地平線(xiàn)在語(yǔ)音方面所做的工作?
      黃暢:請容許我首先介紹一下我在語(yǔ)音方面的同事牛建偉。牛建偉在加入地平線(xiàn)之前就職于百度語(yǔ)音技術(shù)部,是國內語(yǔ)音行業(yè)中最早一批接觸并運用深度學(xué)習算法的人,至今從事語(yǔ)音方面的研發(fā)工作已經(jīng)7年有余。事實(shí)上,地平線(xiàn)從創(chuàng )立伊始就開(kāi)始語(yǔ)音技術(shù)的研發(fā),原因很簡(jiǎn)單——萬(wàn)物智能意味著(zhù)人機交互需要變得更加自然,而語(yǔ)音正是其中最重要的手段之一。在家居場(chǎng)景中,各種智能終端上的語(yǔ)音技術(shù)與手機上的相比,會(huì )復雜很多,具體表現為:語(yǔ)音的獲取從近場(chǎng)變?yōu)檫h場(chǎng)、對交互響應時(shí)間的要求更為苛刻、需要對接的服務(wù)種類(lèi)更加繁雜。這些特點(diǎn)決定了智能終端不能簡(jiǎn)單沿用手機上的語(yǔ)音技術(shù)架構。
      為了更好地處理遠場(chǎng)語(yǔ)音問(wèn)題,我們開(kāi)展了語(yǔ)音信號處理(包括麥克風(fēng)陣列)相關(guān)的算法和硬件研發(fā);為了降低交互響應時(shí)間,我們采用了云端+嵌入式的語(yǔ)音識別架構;在嵌入式端,受限于計算資源,我們僅僅運行信號處理、喚醒、命令詞和小規模通用語(yǔ)音識別模型,以保證低延時(shí)的交互響應以及網(wǎng)絡(luò )條件不好情況下的用戶(hù)體驗;而在云端我們可以采用更大規模的聲學(xué)模型、更復雜的解碼器和語(yǔ)言模型,在網(wǎng)絡(luò )條件良好的情況下確保更好的用戶(hù)體驗;最終,通過(guò)語(yǔ)義理解、知識庫和對話(huà)系統,做出決策并對智能設備進(jìn)行有效的控制,將用戶(hù)和廣泛的服務(wù)對接起來(lái)。
      機器之心:現在的語(yǔ)音團隊大約發(fā)展到了多少人?
      黃暢:除了北京,我們還在南京設立了語(yǔ)音研發(fā)中心,整個(gè)團隊加起來(lái)正式員工有20多人。
      機器之心:國內也有一批語(yǔ)音方面的人工智能創(chuàng )業(yè)公司,比如思必馳、云知聲等,我們和他們比起來(lái)有什么不同?
      黃暢:我們的角度是不一樣的。首先據我所知,他們還是非常偏重云端的。地平線(xiàn)的語(yǔ)音則一開(kāi)始就強調云端+嵌入式。語(yǔ)音信號處理、喚醒、命令詞以及語(yǔ)音小模型放在嵌入式端,以保證實(shí)時(shí)性和網(wǎng)絡(luò )不佳條件下的必要功能,而將語(yǔ)音大模型和語(yǔ)義理解放在云端,以提供更佳的性能并能對接服務(wù),這種云端+嵌入式端的整體方案,可以提供更好的用戶(hù)體驗。
      我們注重的是語(yǔ)音全自然交互的解決方案,也就是前端語(yǔ)音信號處理與后端語(yǔ)音識別、語(yǔ)義理解相結合。
      語(yǔ)音信號處理、語(yǔ)音識別、語(yǔ)義理解這三個(gè)環(huán)節組成了一個(gè)完整的解決方案,尤其需要注意的是前端語(yǔ)音信號處理,它發(fā)揮了很重要的作用。舉個(gè)簡(jiǎn)單例子,在語(yǔ)音識別環(huán)節很重要的就是對數據進(jìn)行擾動(dòng)、加噪。那么加噪怎么加?加多少?這其實(shí)跟音頻信號處理關(guān)系是非常大的。如果只專(zhuān)注于語(yǔ)音識別這件事情而不做音頻前端的信號處理、優(yōu)化,就會(huì )導致在具體產(chǎn)品上出現性能不好,或者成本過(guò)高等問(wèn)題。
      最后,我們在軟硬件配合方面做了大量工作。硬件體現在兩方面,一方面是在前端信號處理上的麥克風(fēng)陣列,另一方面是在中間的語(yǔ)音識別,尤其在嵌入式的語(yǔ)音識別,需要我們設計專(zhuān)用的、針對深度學(xué)習優(yōu)化的計算架構芯片。
      所以我們認為語(yǔ)音交互這件事情,首先是云端+嵌入式;其次是語(yǔ)音信號處理、語(yǔ)音識別、語(yǔ)義理解三個(gè)環(huán)節都要做;最后,你要軟硬結合。這三個(gè)維度缺一不可。
      機器之心:地平線(xiàn)之前推出的雨果平臺、安徒生平臺上面使用到的語(yǔ)音交互解決方案也都是我們自己的?
      黃暢:雨果1.0平臺是一個(gè)基于FPGA的平臺,它主要面對的是汽車(chē)市場(chǎng)。安徒生平臺面向的是智能家居。現階段,車(chē)載語(yǔ)音暫時(shí)還沒(méi)有放在我們的工作范疇之內,我們專(zhuān)注的是智能家居的語(yǔ)音應用。所以說(shuō)我們的語(yǔ)音目前主要是在安徒生平臺上的應用。
      這其實(shí)也反映了另外一個(gè)問(wèn)題。表面上看車(chē)載語(yǔ)音和家居語(yǔ)音都是語(yǔ)音應用,但實(shí)際上因為場(chǎng)景不同,可以接受的功耗和成本不一樣,這導致你所采用的技術(shù)方法的差距非常大。
      所以在研究方面我們要把信號處理、語(yǔ)音識別和語(yǔ)義理解三個(gè)環(huán)節都做。但在其他的維度上,比如在具體應用場(chǎng)景中,我們要有所收斂。因為畢竟我們不可能像一個(gè)大公司一樣,投入非常多的資源在所有的維度上。
      機器之心:地平線(xiàn)之前一直在做圖像識別方面的研究,也有語(yǔ)音識別方面的研究。如果兩者部署到同一個(gè)平臺,比如說(shuō)同一個(gè)機器人平臺上,它們是相互促進(jìn)?還是彼此獨立的存在?
      黃暢:這恰恰是我們努力在做的。表面上看語(yǔ)音和圖像好像是是兩個(gè)不同的東西,但實(shí)際在交互的過(guò)程中我們追求的是一種多模態(tài)的交互。
      舉個(gè)簡(jiǎn)單的例子,我們通常說(shuō)語(yǔ)音是比較自然的交互,但是在有些場(chǎng)景中你會(huì )發(fā)現手勢、人臉這些來(lái)自于圖像的信號也能夠很好的輔助你進(jìn)行交互。尤其是在復雜的場(chǎng)景中,比如說(shuō)開(kāi)party,你會(huì )發(fā)現在嘈雜的聲音中把語(yǔ)音分離出來(lái)是很難的。
      針對這種復雜場(chǎng)景中的問(wèn)題,雖然我們有增強的方法,但是你一開(kāi)始甚至不知道應該往哪個(gè)方向進(jìn)行增強。所以我們可以結合一些來(lái)自于圖像的indicator,比如說(shuō)手勢識別,比如說(shuō)類(lèi)似前段時(shí)間DeepMind做的唇語(yǔ)識別。它(指DeepMind的LipNet)是個(gè)很有意思的應用,也是在做語(yǔ)音識別,但它不是靠語(yǔ)音信號而是靠圖像信號,而且準確率十分驚人。
      這就說(shuō)明一個(gè)很有趣的問(wèn)題:如何讓機器所感知的信息,像人機交互一樣,也是一種多模的交互?從邏輯上來(lái)講,是把語(yǔ)音和圖像的交互結合起來(lái)。從執行上來(lái)講,你必須把兩個(gè)東西放在一套系統里面,非常完美地同時(shí)運行這兩個(gè)東西。
      再往深處去挖,圖像和語(yǔ)音發(fā)展到現在,在計算模式上已經(jīng)有了非常大的相似性,這使得我們可以設計一套對這兩種問(wèn)題通用的計算架構,這也是我們之所以非常看重專(zhuān)用的芯片架構設計的原因。因為我們相信用一套專(zhuān)門(mén)設計的新架構,能夠做好包括語(yǔ)音、圖像、決策在內的很多人工智能問(wèn)題的運算。
      機器之心:把語(yǔ)音技術(shù)部署到產(chǎn)品上面接下來(lái)有什么計劃嗎?
      黃暢:前期主要是在智能家居方面,比如說(shuō)跟科沃斯的合作,將語(yǔ)音識別技術(shù)用于智能掃地機器人上。此外我們也在跟其它家電廠(chǎng)商研發(fā)基于語(yǔ)音識別的技術(shù)應用。
      地平線(xiàn)認為2017年是語(yǔ)音識別廣泛應用的關(guān)鍵年。所以我們在這一年會(huì )非常重視整個(gè)語(yǔ)音的技術(shù)研發(fā)和產(chǎn)品推廣,包括市場(chǎng)拓展,這是今年公司最重要的方向之一。
      地平線(xiàn)的語(yǔ)音技術(shù)
      機器之心:兩位能從技術(shù)角度講解下地平線(xiàn)的語(yǔ)音研究嗎?模型與算法?
      牛建偉:前面也講到了,地平線(xiàn)在很多方面都有一些工作:音頻信號處理、語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成等。
      具體到其中的「語(yǔ)音識別」,它包括兩大模型:在語(yǔ)言模型上我們現在用的是n-gram結合RNN的模型;識別模型在嵌入式端主要用CNN和DNN模型,服務(wù)器上采用CLDNN模型結構。
      我們在算法上做的提升包括:一個(gè)是前端音頻信號處理,我們正在做一套完整的前端模塊或者說(shuō)是算法套件。有了前端的提升之后,我們的識別系統對強噪聲干擾、人聲干擾就會(huì )有更好的魯棒性。
      另一個(gè)提升是針對語(yǔ)音識別場(chǎng)景的打磨。因為掃地機器人或者是空調,都有一些本體噪聲。我們需要模型能夠適應這種本體噪聲。此外,就是一些建模方法、模型結構上的改變或者改進(jìn),比如DeepCNN模型、LSTM模型以及進(jìn)一步引入CTC準則。
      剛才提到的LSTM模型、CLDNN模型,在一些數據集上我們都已經(jīng)能夠驗證效果,并將逐步將算法移植到我們自己的芯片上。
      語(yǔ)音合成上,我們現在用的是基于BLSTM模型的一套參數合成系統,現在也在追蹤WaveNet。
      黃暢:現在很多學(xué)術(shù)界或者業(yè)界的新發(fā)展,基本上都是基于大規模的服務(wù)器、GPU去完成的。我們在跟蹤這些最新的方法同時(shí),非常關(guān)注哪些更加適合部署在嵌入式平臺,部署在低成本、低功耗的通用處理器以及我們設計的專(zhuān)用芯片架構上。
      機器之心:這整套方法的準確率大約在多少呢?有沒(méi)有測試出一個(gè)結果?
      牛建偉:根據我們的內部評測結果,在1000小時(shí)的數據上,CLDNN+CTC模型相比于之前公司的DCNN模型性能大概提升了15%~20%。
      機器之心:在語(yǔ)音合成方面剛才你提到的追蹤WaveNet,能補充說(shuō)明一下嗎?
      牛建偉:我們現在已有的是一個(gè)相對來(lái)說(shuō)比較主流的技術(shù)框架。文本處理前端就是利用NLP相關(guān)算法、資源進(jìn)行文本的規整,提取詞法和語(yǔ)法信息。后端主要集中在參數合成,這一環(huán)節比較容易放到嵌入式的端上面進(jìn)行,因為它的資源量比較小。這樣的話(huà)TTS系統只需要占用幾十MB的空間,對計算的要求也可控。后端我們用的就是一個(gè)相對主流的BLSTM模型,這基本上也是各家都在用的。
      至于WaveNet,它相對來(lái)說(shuō)提高了合成語(yǔ)音的自然度,還有舒適度,但是它存在一個(gè)問(wèn)題就是計算量很大。語(yǔ)音是16K采樣,一秒鐘它就要預測16000次。當然可以再做加速,但現在加速的效果還沒(méi)有那么好,現在基本上還是100倍的實(shí)時(shí)率,就是合成一秒鐘語(yǔ)音還需要100多秒的計算時(shí)間。這沒(méi)辦法直接用到產(chǎn)品上面,所以我們還是在追蹤WaveNet的階段。
      機器之心:吳恩達今年在NIPS 2016上提到了端到端學(xué)習在語(yǔ)音識別上的應用,我們在這方面有沒(méi)有深入的研究呢?
      牛建偉:吳恩達的「端到端」,在英文識別中是指從一個(gè)頻率的特征直接建模到音素這一級,中文指從一個(gè)頻率特征建模到拼音聲母跟韻母這一級。從目前主流的實(shí)踐上看,這其實(shí)就是一個(gè)LSTM和它的變形,然后加上一個(gè)CTC目標函數。之所以認為是一個(gè)端到端,是因為它省略了以前語(yǔ)音識別三音素表述的概念。
      再進(jìn)一步發(fā)展的話(huà)就不限于一定是頻率的特征,可能就是從原始的波形一直到因素或聲韻母,這相當于是更寬的端到端。
      黃暢:其實(shí)端到端不是一個(gè)新的概念,而且端到端也是相對而言的。你現在聽(tīng)到的端到端是相對于過(guò)去的工作而言,過(guò)去工作是什么呢?是把輸入到輸出的中間部分分成兩三個(gè)不同的階段,然后分別去做優(yōu)化。現在是把這兩三個(gè)階段合在一起,直接做輸入到輸出的端到端優(yōu)化。但如果把視線(xiàn)放到端到端之外,其實(shí)輸入前還有信號處理、特征抽取,輸出后還有解碼、語(yǔ)言模型、語(yǔ)義理解。所以你現在所看到的端到端如果放到我前面提過(guò)的序列中還只是整個(gè)語(yǔ)音識別鏈條中的很小一部分。
      端到端的思想其實(shí)來(lái)源于深度學(xué)習的一個(gè)核心思想,這只是深度學(xué)習方法應用于問(wèn)題中不斷的延展。理想情況就是提供一個(gè)或者多個(gè)麥克風(fēng),不做信號處理就直接讀取錄音內容,然后通過(guò)深度學(xué)習模型最終直接輸出意義。
      機器之心:如果要促進(jìn)語(yǔ)音識別更加地實(shí)用,還要做些什么樣的工作呢?
      黃暢:現在看來(lái)語(yǔ)音識別問(wèn)題好像已經(jīng)基本解決了,但這僅限于近距離安靜場(chǎng)景中和發(fā)音相對比較規范情況下。就好比人臉識別,很多人覺(jué)得好像是個(gè)已解決問(wèn)題,但仍只是在限定條件下。但當你實(shí)際應用的時(shí)候,會(huì )出現各種問(wèn)題。典型的問(wèn)題就是:第一個(gè),遠場(chǎng)情況下,混響、噪聲干擾怎么解決?第二個(gè),語(yǔ)義是否能夠正確理解?
      我們以前討論過(guò),如果只是做一個(gè)通用語(yǔ)音識別,可以把字打出來(lái)。本質(zhì)上來(lái)講,它只能夠替代輸入法,作用是十分有限的。如果要把它用在交互上,形成一個(gè)閉環(huán)的話(huà),它必須能夠理解人的語(yǔ)義。所以只在中間這段語(yǔ)音識別做好還不夠,真正應用中要形成一個(gè)閉環(huán),前面的語(yǔ)音信號處理、后面語(yǔ)義理解都要做得好。
      所以我們不應該單純的、狹義的說(shuō)語(yǔ)音識別問(wèn)題已經(jīng)解決了。廣義的語(yǔ)音識別應該是從聲音信號開(kāi)始,到最終的語(yǔ)義。
      機器之心:那我們在語(yǔ)義理解方面做了哪些工作?
      牛建偉:我們現在主要還是針對于對話(huà)或者是交互系統來(lái)做,包括我們在用強化學(xué)習做對話(huà)的一些生成,還有對話(huà)狀態(tài)的管理。同時(shí)我們也做一些NLP方面的工作,用Deep CNN或者LSTM做一些名詞的標注,或者是實(shí)體的識別,另外還有些語(yǔ)言模型方面的工作。
      黃暢:泛泛的那種對話(huà)、聊天式的機器人意義不大,我們關(guān)注的對話(huà)是針對某個(gè)特定的場(chǎng)景、應用或者類(lèi)型的知識,使它成為有獨特性的,有「知識背景」的對話(huà)。
      機器之心:地平線(xiàn)在語(yǔ)音研究上的數據能做一下介紹嗎?
      黃暢:關(guān)于數據,其實(shí)有些新的趨勢不僅是在語(yǔ)音上,而在各種各樣的技術(shù)性問(wèn)題中,比如如何做遷移學(xué)習(transfer learning)?在一個(gè)有大規模數據的場(chǎng)景中訓練出模型,在另外一個(gè)相似、相仿的場(chǎng)景中,怎么把這個(gè)大規模數據場(chǎng)景中訓練出的模型遷移到小規模數據場(chǎng)景中。
      另一方面是生成型模型,尤其是對抗式生成式模型,它提出了一種非常新的概念,就是重新設定學(xué)習的范式(paradigm)和框架,重新看待學(xué)習這件事情。它一個(gè)很重要的產(chǎn)出就是,利用生成式模型幫助你產(chǎn)生更多的、特定屬性的數據。
      再往前推,其實(shí)RL(強化學(xué)習)是非常有價(jià)值,尤其是在交互的過(guò)程中。對語(yǔ)義理解互動(dòng)這件事情,RL天生就是為這種交互的模式設計的。
      機器之心:在語(yǔ)音識別算法方面,還可以朝著(zhù)哪些方面改進(jìn)?
      牛建偉:主要有三方面的改進(jìn)。
      第一,降低數據量的需求。即我們通過(guò)一些方式生成數據,或者學(xué)習一些數據共有的特征或屬性,以此降低數據量需求。比如說(shuō)為了達到一個(gè)比較高的識別率,現在可能需要2萬(wàn)小時(shí)的數據量,以后只需要2000小時(shí)。舉個(gè)例子,DNN取代以前的GMM模型的時(shí)候,DNN1000小時(shí)的性能其實(shí)已經(jīng)超過(guò)了在3000小時(shí)訓練數據上訓練的GMM的性能。
      第二,更好的語(yǔ)音信號的特征表示。因為現在語(yǔ)音識別最大的一個(gè)問(wèn)題是有比較大的干擾之后,識別效果就不太好。其實(shí)人在0dB或者更低信噪比的情況下(噪音跟聲音的能量是一致的時(shí)候),還能夠識別,但機器就沒(méi)辦法處理的很好。說(shuō)明我們現有的特征表示的魯棒性還不夠好,距離人還有很大差距。
      針對于此,我們可以對人耳聽(tīng)覺(jué)進(jìn)行更精確的數字描述。或設計現在已有的神經(jīng)網(wǎng)絡(luò )結構,更好地提取出語(yǔ)音信號里面對識別來(lái)說(shuō)作用更大的特征。
      第三,解碼。我們現在一直在提端到端,但其實(shí)一直沒(méi)有把解碼包含進(jìn)來(lái)。語(yǔ)音識別最終做的還是把固定特征表示成一個(gè)更高維的信息,還是時(shí)間序列上的表示,需要解碼的過(guò)程。
      解碼是除了模型外計算量比較大的一塊。但其實(shí)解碼也能通過(guò)模型表示出來(lái)。也就是通過(guò)模型的方式把高維的時(shí)序信息結合起來(lái),最終直接就預測出一句話(huà),那這樣就相當于在時(shí)序上的端到端的識別。
      如果能做到這樣,后面優(yōu)化識別模型的過(guò)程就變得更容易了。因為雖然解碼還是工程化的東西,但它會(huì )比較明顯的影響到識別結果。如果我能把它放到機器學(xué)習的框架里面去優(yōu)化,這樣相當于整體的優(yōu)化。有可能性能會(huì )更好,解碼的效率也會(huì )更高。
      機器之心:不久之前Facebook提出了新的語(yǔ)言模型方法Gated Convolutional Network,相比于LSTM取得了一定進(jìn)展。對此研究有何看法?這個(gè)研究是否有很大的意義?
      牛建偉:Gated CNN跟9月份的WaveNet其實(shí)有點(diǎn)類(lèi)似,因為它相當于是把顯示的那種循環(huán)結構改了一下。
      LSTM的提出從想法上還是比較簡(jiǎn)單:因為這是一個(gè)時(shí)序的問(wèn)題,需要歷史指導來(lái)做下一步的預測。但現在我們來(lái)看,它存在一些問(wèn)題:優(yōu)化算法沒(méi)有那么穩定。
      LSTM之前是Simple RNN,為什么LSTM比RNN好?
      從理論上來(lái)說(shuō),兩者的表達的能力應該是一樣的。通過(guò)調整結構(引入門(mén)),來(lái)適應現有的一些學(xué)習算法,讓它的性能變得比較好。但同時(shí)也說(shuō)明現有的優(yōu)化算法是有些問(wèn)題的,包括它的收斂性、穩定性上。
      現在的一個(gè)趨勢是利用CNN結構的組合來(lái)替代RNN模型,優(yōu)化的時(shí)候就可以用一個(gè)SGD(隨機梯度下降)或者類(lèi)似SGD的優(yōu)化算法,它的穩定性相對來(lái)說(shuō)會(huì )高一些,不會(huì )存在很明顯的梯度爆炸問(wèn)題。
      另外,還因為卷積網(wǎng)絡(luò )用CNN這種結構直觀(guān)上比較合理一些。比如說(shuō)三個(gè)單詞,我先把它們變成一個(gè)連續域表示,就像它們論文中的一張圖就是把word graphic轉到連續域場(chǎng)(如上圖)。然后把連續域的特征通過(guò)卷積,就看前三個(gè),提出一個(gè)特征然后一層層加上去,之后再做一個(gè)預測。預測的詞出來(lái)之后,再放到輸入上面,就這樣一層一層過(guò)。其實(shí)它也是類(lèi)似循環(huán)的結構,但這種結構依賴(lài)的歷史相對就比較明確了。
      LSTM其實(shí)是一個(gè)隱含的。你可以說(shuō)它學(xué)到了歷史,因為它有一個(gè)保存信息的cell,但到底它學(xué)了多長(cháng)的歷史是未知的。
      至于這個(gè)研究,模型的話(huà)我覺(jué)得可能意義沒(méi)那么大。我個(gè)人認為,如果能在優(yōu)化算法上有更好的改進(jìn),普通的模型結構可能也能取得這樣的效果。但現在優(yōu)化算法上突破性的改進(jìn),好像還不多。
      黃暢:我補充一點(diǎn)。關(guān)于LSTM,不管你是單向的、雙向的、摞一起的、不摞一起的,其實(shí)都有一個(gè)問(wèn)題:信息傳導的約束很強。換句話(huà)說(shuō),不管是做前向預測還是后向BP(反向傳播),一個(gè)信息從左邊到右邊,或者從開(kāi)始到結束,都要經(jīng)過(guò)很長(cháng)的路徑。而且在整個(gè)過(guò)程中,會(huì )有很多非線(xiàn)性的變化,尤其是LSTM這種典型的、很容易進(jìn)入自我限制狀態(tài)的模型。經(jīng)過(guò)很多次這樣的事情,就導致整個(gè)優(yōu)化變得異常困難。這個(gè)結構天生就使得優(yōu)化變得非常困難。
      這是LSTM的弊病,它的結構設計有很大限制性。你可以類(lèi)比一些其他結構,比如ResNet,它通過(guò)建立free-way的方式,人為地架了很多short-pass(短路徑),使得本來(lái)在網(wǎng)絡(luò )上距離很遠的兩個(gè)單元之間建立一些高速的快速通道。直觀(guān)的理解就是可以讓它們之間的信息溝通更加順暢,減輕我前面說(shuō)的那個(gè)問(wèn)題。
      更進(jìn)一步,你會(huì )發(fā)現在語(yǔ)音識別中有人用完整的CNN替代LSTM,包括訊飛、微軟、百度。剛開(kāi)始的時(shí)候CNN用得很淺,只是作為基本的局部表達,后來(lái)發(fā)現可以用CNN不斷堆積,而且堆的很有技巧。在計算量不顯著(zhù)增加的情況下,這樣就可以用CNN覆蓋很大的語(yǔ)境。
      就是說(shuō)優(yōu)化算法本身也許沒(méi)有很好的進(jìn)步,但是通過(guò)網(wǎng)絡(luò )結構的設計可以規避目前主要基于SGD的優(yōu)化算法難以解決的LSTM問(wèn)題,直接構造一個(gè)更適合目前優(yōu)化算法去優(yōu)化的網(wǎng)絡(luò )結構。所以本質(zhì)上很難說(shuō)哪個(gè)結構更好,你只能說(shuō)這個(gè)結構更適合現在主流的這種優(yōu)化方法。
      其實(shí)論文出來(lái)時(shí)我稍微看了一點(diǎn),它本質(zhì)上好像和attention model很像。attention model的概念是不管語(yǔ)境是怎么傳過(guò)來(lái)的,總是有選擇的看所有東西,做決策(比如生成一個(gè)詞)的時(shí)候有選擇的去做。這時(shí)候會(huì )產(chǎn)生一個(gè)attention mask,這可以理解成一個(gè)gate,封住一些不想看的東西,保留想看的。
      這個(gè)在圖像和NLP里面已經(jīng)得到很好的驗證。NLP、語(yǔ)音、圖像其實(shí)都是相通的,你會(huì )發(fā)現很多思想、結構、設計理念會(huì )越來(lái)越相似。這也給了我們信心,讓我們可以實(shí)現語(yǔ)音圖像識別一體化交互,用一套統一的專(zhuān)用架構去做解決各種各樣的問(wèn)題。
     

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 云梦县| 宜春市| 盱眙县| 姚安县| 克山县| 贵溪市| 汕尾市| 晋城| 荥经县| 四子王旗| 高淳县| 金湖县| 柏乡县| 和田市| 平顶山市| 荥阳市| 桃园县| 桂东县| 郸城县| 江源县| 新乡县| 财经| 拜泉县| 茂名市| 垣曲县| 九寨沟县| 克山县| 湖口县| 象州县| 甘肃省| 巴南区| 凌云县| 子长县| 仪陇县| 乐业县| 兴宁市| 大安市| 孟连| 西和县| 绥江县| 枝江市| http://444 http://444 http://444 http://444 http://444 http://444