• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 文章精選 >
     首頁(yè) > 新聞 > 文章精選 >

    應用于實(shí)時(shí)視頻通信的深度學(xué)習算法研究

    2018-09-18 10:20:28   作者:鐘聲   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      本文整理了聲網(wǎng)首席科學(xué)家鐘聲,在 RTC 2018實(shí)時(shí)互聯(lián)網(wǎng)大會(huì )上的干貨演講,首發(fā)于 Infoq。如果對于演講內容有任何希望與演講人交流的問(wèn)題,歡迎留言。訪(fǎng)問(wèn)「閱讀原文」可觀(guān)看演講視頻回放。
      眾所周知,深度學(xué)習在實(shí)時(shí)視頻通信端到端系統里有很多的應用,比如說(shuō)我們用它做超分辨率,能取得比較好的效果;我們用它做圖像恢復,也能取得比較好的效果。如果說(shuō)提及挑戰的話(huà),在支持移動(dòng)端的應用里,我們必須考慮復雜性的限制,必須要以一個(gè)小的模型,能夠在移動(dòng)平臺上實(shí)時(shí)運行,而且功耗、CPU 占比都得到合適的限制。另外應該在相對合理的數據集上取得比較好的學(xué)習效果,讓它的泛化能力很強。
      簡(jiǎn)單展示一下結果,我們用傳統的算法得到的效果通常比較模糊,基于深度學(xué)習的算法我們則能恢復出更多細節、甚至生成出一些細節。
      從計算量來(lái)看,我們目前能做到把 480x360 放大到 960x720 在 iPhone6 的 GPU 上達到 120fps,使得復雜性得到比較有效的控制。
      我們用生成對抗網(wǎng)絡(luò )的方式來(lái)做超分,生成對抗網(wǎng)絡(luò )最近兩三年比較熱,在人工智能學(xué)習算法的學(xué)術(shù)會(huì )議上,這兩年甚至達到了 2/3 以上的論文都是跟生成對抗網(wǎng)絡(luò )有關(guān)。生成對抗網(wǎng)絡(luò )通常包括一個(gè)生成器和一個(gè)判別器,生成器盡量模擬真實(shí)數據,要像真實(shí)數據一樣來(lái)欺騙判別器,讓判別器認為生成的數據是真實(shí)的,符合真實(shí)數據的分布。判別器的任務(wù)正好相反,它要盡量的讓生成的數據通不過(guò)考驗,這個(gè)標準越高,通不過(guò)的概率就越高。所以生成器和判別器在彼此的矛盾沖突中共同進(jìn)步,最終達到判別器也判別不出來(lái)是真是假這樣一個(gè)程度。
      生成器就是把一個(gè)隨機的分布,一個(gè)噪聲 Z,經(jīng)過(guò)生成器之后產(chǎn)生一個(gè)圖像能跟真的很像。下圖形象地表示生成器在逼近真實(shí)數據的分布,綠色是這個(gè)模型產(chǎn)生的分布,在相互矛盾沖突之中逐漸達到真實(shí)數據就是黑色虛線(xiàn)的分布。Z,就是我剛才說(shuō)的,比如說(shuō)一個(gè)隨機變量,它能生成出我們想要的結果,從公式上說(shuō)實(shí)際上生成器在做一件事,它是使判別器犯錯的概率最大,就是判別器分不出真假,分不出生成東西是假的,就是要讓它犯錯。
      這個(gè)判別器,它是要首先最大化一個(gè)真實(shí)數據為真的這個(gè)概率,最小化生成器為真的概率就是我剛才說(shuō)的矛盾沖突,用公式也是可以表示出來(lái)的。這個(gè)判別器的最佳解是有數學(xué)解的,就是達到納什均衡。把這兩個(gè)生成器和判別器綜合到一起就是一個(gè)價(jià)值函數的最大最小優(yōu)化。
      這個(gè)有什么問(wèn)題?這個(gè)生成器為了通過(guò)判別器的檢驗,就找了一些它比較好生成的模式來(lái)生成,所以訓練完之后比如就大概率生成 1,因為 1 很好通過(guò),就是一豎,所以生成器的學(xué)習某種意義上會(huì )耍點(diǎn)小聰明,它會(huì )試圖學(xué)習那些最容易學(xué)的樣本,多產(chǎn)生一些容易判對的樣本,這就是生成器在做的情形,但這是不理想的情形。
      換一個(gè)圖來(lái)看,比如分布是一個(gè)均勻的圓,生成器可能最后收斂到某一個(gè)地方,總收斂到某一個(gè)地方也總通過(guò)。判別器因為總通過(guò),網(wǎng)絡(luò )狀態(tài)最后就收斂這么一個(gè)狀況。生成器比較難于生成這種多模態(tài)、有多個(gè)聚類(lèi)的分布,我們把這個(gè)現象叫模式坍塌。
      具體的挑戰涉及什么,我簡(jiǎn)單說(shuō)一下,我們怎么樣緩解這個(gè)模式坍塌,就是使得生成器別陷入耍小聰明騙過(guò)了判別器的狀態(tài)。第二是我們給定一個(gè)卷積神經(jīng)網(wǎng)絡(luò ),它表現有多好、學(xué)習能力有多強。換句話(huà)問(wèn),我們給定一個(gè)深度學(xué)習的任務(wù),深度卷積神經(jīng)網(wǎng)絡(luò )能做到多小,還能達到比較好的效果。
      為了降低模式坍塌出現的概率,首先通常會(huì )要求加一個(gè)局域的限制,要求生成器不僅要騙過(guò)判別器,而且要讓它帶有噪聲的輸入要像真實(shí)的樣本,這樣的話(huà)生成出來(lái)跟真實(shí)樣本不會(huì )差太多。就相當于在損失函數上,加了一項,生成的東西要跟目標像,即監督學(xué)習。
      再換一個(gè)角度看,實(shí)際上深度學(xué)習的神經(jīng)網(wǎng)絡(luò ),它是一個(gè)流形,這個(gè)流形是一個(gè)拓撲空間,能把流形同胚映射到 N 維的實(shí)數空間,同胚映射的意思就是正映射和逆映射都是連續的。我簡(jiǎn)單說(shuō)一下這個(gè)概念,比如一個(gè)三維空間中的曲面,是一個(gè)二維的流形,從編碼的角度來(lái)說(shuō),它可以對應一個(gè)隱空間,隱空間是二維的,正映射是降維,是個(gè)編碼的過(guò)程,或者在分類(lèi)的問(wèn)題里我們會(huì )試圖在隱空間里分的更好。反過(guò)來(lái)講從隱空間到流形就是變成一個(gè)生成器,就是解碼的過(guò)程,從精簡(jiǎn)的數據恢復到它看起來(lái)的外觀(guān)是我們希望的樣子。
      這個(gè)曲面在三維空間,我們叫環(huán)境空間。Wasserstein 設計了一個(gè)生成對抗網(wǎng)絡(luò )其實(shí)也有很多層,到達十層的網(wǎng)絡(luò )。他要做的事情就是把兩個(gè)高斯分布:一個(gè)在零點(diǎn),一個(gè)在 40×40 的地方,把分布學(xué)會(huì )。結果發(fā)現這個(gè)多達十層的一個(gè)深度學(xué)習網(wǎng)絡(luò )居然學(xué)不會(huì ),當收斂之后表現為橘色這些點(diǎn),就是最后收斂的狀態(tài)。當數據分布有多個(gè)聚類(lèi)或者多個(gè)峰值混合分布的時(shí)候,這樣的流形對生成對抗網(wǎng)絡(luò )是有挑戰的。
      卷積神經(jīng)網(wǎng)絡(luò )是什么?我們來(lái)看基于矯正的線(xiàn)性單元(ReLU)的卷積神經(jīng)網(wǎng)絡(luò ), 它可以看成是一個(gè)分段線(xiàn)性的映射,我們看這幾個(gè)常用的激活函數其實(shí)都是分段線(xiàn)性,不管有參數還是隨機的,都是分段線(xiàn)性的一個(gè)映射。
      所以這個(gè)流形就被這些分段線(xiàn)性的映射分成了很多子空間,分成很多小的立方體,所以這個(gè)流形經(jīng)過(guò)編碼器之后就變成很多小空間,都是分段線(xiàn)性的,是多個(gè)小的多面體。
      怎么理解這個(gè)模式坍塌是怎么來(lái)的?當編碼器 E,把流形 M 映射到隱空間 E(M)之后,它的分布往往是極其不均勻的,在這個(gè)不均勻的奇異分布里要進(jìn)行分類(lèi)或者控制都是很難的。提一個(gè)問(wèn)題,我們是否能引入另外一個(gè)隱空間,它能映射到 Z,與生成器 G 復合起來(lái) G*T,能把這個(gè) Z’分布比較好比較均勻的分布映射回流形,這樣不管做分類(lèi),還是做采樣點(diǎn)的控制,都應該是比較容易的。丘成桐教授等做了一些分析工作,用最佳質(zhì)量映射,能把我剛才說(shuō)的立方體又較好地重新映射回去。
      如果不做最佳質(zhì)量映射,直接應用解碼器,會(huì )有問(wèn)題。在編碼域上進(jìn)行均勻的采樣(通常有規律的、比如均勻是我們最能掌握的,非均勻的東西我們很難控制得好),那么我把它重疊在編碼域的圖上,對這些采樣出來(lái)的點(diǎn),如果直接用生成器(也是解碼器)重構,恢復出來(lái)這些點(diǎn),放到原來(lái)的圖上,可以看到頭部非常稀疏,這個(gè)稀疏可以理解成在編碼以后的隱空間用這些均勻采樣點(diǎn)來(lái)解碼,很難解出在頭部也能均勻恢復的效果,這也是模式坍塌的一種。
      如果加上這個(gè)最佳質(zhì)量傳輸映射,在這個(gè) Z’隱空間做均勻采樣,再恢復。就是剛才說(shuō)的把最佳質(zhì)量映射和生成器在一塊,恢復出來(lái)的效果就是比較均勻的。可以看到這個(gè)質(zhì)量是會(huì )更好,所以這個(gè)最佳質(zhì)量映射,能在均勻分布的隱空間上使得控制變得非常容易。
      丘成桐教授等發(fā)現解碼器和編碼器在數學(xué)上有閉式公式可以關(guān)聯(lián)起來(lái),簡(jiǎn)單說(shuō)只要有其中一個(gè)就可以推導出另外一個(gè),這個(gè)在數學(xué)上是保證了的。有了這個(gè)結論,用到深度學(xué)習,就是只要訓練好其中一個(gè),就通過(guò)幾何計算的方法來(lái)恢復出另外一個(gè),不需要訓練另外一個(gè),免除了數據的擔憂(yōu)。但實(shí)際上高維空間中去推導最佳質(zhì)量映射,是比較困難的,基本上在有限的計算資源下不太容易做到的。所以并沒(méi)有完全顛覆我們對深度神經(jīng)網(wǎng)絡(luò )的認識。
      這里有一個(gè)問(wèn)題,這個(gè)最佳質(zhì)量映射也可以通過(guò)深度神經(jīng)網(wǎng)絡(luò )的方式來(lái)學(xué)習。第二個(gè)自然產(chǎn)生的問(wèn)題,我們是不是要學(xué)兩次?我們能不能一次把這個(gè)復合映射學(xué)會(huì )?顯然這是很有實(shí)際意義的問(wèn)題:有兩個(gè)模型把它合成一個(gè)模型。
      再換一個(gè)視角來(lái)看模式坍塌,這個(gè)視角可能更好理解一點(diǎn)。舉例子來(lái)說(shuō),三維空間中有一個(gè)二維曲面,每一個(gè)點(diǎn)上有一個(gè)切面,對較為規范的流形來(lái)說(shuō)這個(gè)切面應該是一個(gè)二維的平面,當這個(gè)二維的平面退化成一條線(xiàn)甚至是零維的一個(gè)點(diǎn),這時(shí)候模式坍塌一定發(fā)生。因為退化成一條線(xiàn)的時(shí)候,在其法向量方向上,另外一個(gè)坐標軸再怎么變都不影響結果,這是模式坍塌。退化成零維的時(shí)候更是如此了。
      我們可以在損失函數中加上另外一項懲罰項,這個(gè)懲罰項表示跟一個(gè)恒等矩陣的差,這一項加到損失函數里。它試圖使得切空間是滿(mǎn)秩的,不會(huì )退化到一維或者零維,這樣也能有效的減低模式坍塌的出現,這是從另外一個(gè)視角看這個(gè)問(wèn)題。
      下一個(gè)問(wèn)題,如果給了一個(gè)基于矯正分段線(xiàn)性激活函數(ReLU)的卷積神經(jīng)網(wǎng)絡(luò )的學(xué)習能力究竟能有多強?換句話(huà)說(shuō)給定一個(gè)任務(wù),我們能設計多小的一個(gè)神經(jīng)網(wǎng)絡(luò )來(lái)完成任務(wù)?我們希望還是能限定它的復雜性,而不是完全開(kāi)放式的摸索。這樣的話(huà)多少能給我們探索在移動(dòng)設備上的深度學(xué)習算法,提供一些指導原則。
      剛才我提到了編碼器和解碼器都是分段線(xiàn)性函數,解碼器把立方體分的更小,立方體越多越能把縫隙填滿(mǎn),這個(gè)逼近的質(zhì)量決定了編碼器和解碼器最終的效果。這個(gè)很容易理解,一條曲線(xiàn)如果用一段線(xiàn)逼近它和用四條線(xiàn)逼近它,四段肯定逼近的更好,甚至用更多線(xiàn)段來(lái)無(wú)窮逼近,這個(gè)當然對原來(lái)的曲線(xiàn)是有一定限定的,比如是凸曲面等等。
      這個(gè)矯正的復雜度,一個(gè)分段映射的復雜性是表征逼近能力的一個(gè)度量。它定義成,在 N 維的時(shí)空間上,最大的連通子集數,在每一個(gè)連通子集上編碼器都是線(xiàn)性的,說(shuō)穿了是分段線(xiàn)性。這是表征了這個(gè)解碼器的能力。一個(gè) K+2 層的深度卷積神經(jīng)網(wǎng)絡(luò ),由它所能表征的最復雜的分段線(xiàn)性映射來(lái)表征。
      每一組不同的參數就定義了一組分段線(xiàn)性函數,當然參數不同的時(shí)候,它的能力不同。那么就有這么一個(gè)結論,深度神經(jīng)網(wǎng)絡(luò )的復雜性是有上界的,這是一個(gè)很好的結論。如果我們知道我們要學(xué)習的任務(wù),它的復雜性是高于這個(gè)上限的時(shí)候,我們這個(gè)深度神經(jīng)網(wǎng)絡(luò )就設計得太小,肯定學(xué)不好。學(xué)不好有很多表現,比如泛化能力會(huì )比較差。不管你訓練多少樣本,你可能學(xué)到的分布跟實(shí)際數據的分布都是不一致的,都是有偏差的。我們可以想像在實(shí)際應用中,肯定有些數據的實(shí)際效果不是那么好。
      同時(shí),它也有一個(gè)下界,下界的理解比較簡(jiǎn)單,某個(gè)權重,使得網(wǎng)絡(luò )復雜度最小的權重。
      這樣深度卷積神經(jīng)網(wǎng)絡(luò )的表征能力有上界也有下界,基本回答我剛才說(shuō)的那個(gè)問(wèn)題。我有幾點(diǎn)體會(huì )。一個(gè)是因為要求拓撲空間上來(lái)做同胚映射,這個(gè)限制其實(shí)是較強的制約,其實(shí)只能學(xué)比較簡(jiǎn)單的幾個(gè)拓撲結構,不能學(xué)太復雜的東西,或者只能學(xué)一個(gè)局部,一個(gè)局部學(xué)的很好,全局學(xué)起來(lái)有困難。最佳質(zhì)量映射,能夠有幫助,但在高維空間中計算出這個(gè)最佳質(zhì)量映射,也算是一個(gè)比較挑戰的事。第三個(gè)結論,給定任何一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),一定能找到一個(gè)流形嵌入到這個(gè)它輸入的環(huán)境空間中,而它的分布不能被這個(gè)神經(jīng)網(wǎng)絡(luò )學(xué)習。我們對模式坍塌是有一定辦法來(lái)緩解;對算法復雜性,我們能有一定的辦法,能使神經(jīng)網(wǎng)絡(luò )的復雜性有所界定。
      作者簡(jiǎn)介:鐘聲,現任聲網(wǎng)首席科學(xué)家,北京大學(xué)數學(xué)系本科和博士畢業(yè),美國馬里蘭大學(xué)自動(dòng)化研究中心博士后。約有 100 項發(fā)明專(zhuān)利(包括 60 多項美國發(fā)明專(zhuān)利和 30 多項中國發(fā)明)專(zhuān)利。曾是 MPEG/JVT (H.264) 與 INCITS 主要成員,IEEE 成員,并發(fā)表了 30 余篇學(xué)術(shù)論文,內容覆蓋了模式識別、視頻編解碼、計算機視覺(jué)等技術(shù)領(lǐng)域。曾任美國博通公司資深主任科學(xué)家和技術(shù)總監、華亞微電子公司技術(shù)副總裁、海信集團芯片公司總經(jīng)理等職。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 仪陇县| 满洲里市| 石台县| 古丈县| 德化县| 轮台县| 定日县| 皮山县| 望谟县| 吴堡县| 石渠县| 渝北区| 孝昌县| 蒙阴县| 手机| 富平县| 惠水县| 峨边| 韩城市| 宜州市| 阿城市| 华亭县| 宁阳县| 瑞丽市| 安阳市| 江孜县| 兰坪| 武夷山市| 昌江| 景谷| 潞城市| 淳安县| 阳山县| 洪雅县| 荆门市| 临颍县| 甘泉县| 静安区| 门源| 克什克腾旗| 龙胜| http://444 http://444 http://444 http://444 http://444 http://444