在近幾年的人工智能浪潮中,涌現了眾多優(yōu)秀的技術(shù):視頻監控設備的人臉識別功能,智能手機上的語(yǔ)音識別或谷歌最新的自動(dòng)翻譯 ,都源于一種稱(chēng)為“深度學(xué)習”的技術(shù)。現在,人工智能成為了非常熱門(mén)的話(huà)題,而實(shí)際上目前人工智能發(fā)展的眾多貢獻都有賴(lài)于其下屬的深度學(xué)習,以及神經(jīng)網(wǎng)絡(luò )領(lǐng)域的發(fā)展成果。

實(shí)際上,深度學(xué)習是人工智能實(shí)現方法的新名稱(chēng),這種方法已經(jīng)存在了70多年。神經(jīng)網(wǎng)絡(luò )于1944年由Warren McCullough和Walter Pitts(芝加哥大學(xué)的兩位研究人員,也被認為是認知科學(xué)的創(chuàng )始成員)首次提出后伴隨人工智能的發(fā)展幾經(jīng)沉浮:
人工智能最早一次的興起是1956-1974,以命題邏輯、謂詞邏輯等知識表達、啟發(fā)式搜索算法為代表,當時(shí)已經(jīng)有關(guān)于如何下棋的研究展開(kāi)。
1980 年代初又興起了第二次熱潮,主要圍繞專(zhuān)家系統、知識工程、醫療診斷等領(lǐng)域。隨后,人工智能跌入了近30 年的寒冬。
第三次熱潮就是最近兩年興起的深度學(xué)習推動(dòng)的,主要表現是人臉識別、語(yǔ)音識別、自然語(yǔ)言處理等技術(shù)的成熟。
至于神經(jīng)網(wǎng)絡(luò ),直到1969年,神經(jīng)網(wǎng)絡(luò )都是神經(jīng)科學(xué)和計算機科學(xué)的一個(gè)主要研究領(lǐng)域。其后,它隨同人工智能的寒冬經(jīng)歷了一段被冷落的時(shí)期。在20世紀80年代神經(jīng)網(wǎng)絡(luò )方面的研究再次興起,并由于圖形芯片處理能力的提高,大規模的提升和應用在2010年后大爆發(fā)。
神經(jīng)網(wǎng)絡(luò )簡(jiǎn)要原理
神經(jīng)網(wǎng)絡(luò )是一種進(jìn)行機器學(xué)習的方法,計算機通過(guò)分析訓練樣例來(lái)學(xué)習執行某些任務(wù)。通常,這些例子是事先標記的。例如,物體識別系統可以饋送數千個(gè)汽車(chē),房屋,咖啡杯等不同類(lèi)別的標記圖像,并且它將在圖像中找到始終與特定標簽相關(guān)聯(lián)的視覺(jué)圖案。
神經(jīng)網(wǎng)絡(luò )模仿人腦而構建,由數千甚至數百萬(wàn)個(gè)密集互連的簡(jiǎn)單處理節點(diǎn)組成。現今的大多數神經(jīng)網(wǎng)絡(luò )被組織成節點(diǎn)層,它們是“前饋”網(wǎng)絡(luò ),意味著(zhù)數據只在一個(gè)方向上穿過(guò)它們。單個(gè)節點(diǎn)可能連接到其下面的層中的幾個(gè)節點(diǎn),從中接收數據,以及它上面的層中的幾個(gè)節點(diǎn),它們向其發(fā)送數據。
對于每個(gè)傳入連接,節點(diǎn)將分配一個(gè)稱(chēng)為“權重”的數字。當網(wǎng)絡(luò )處于活動(dòng)狀態(tài)時(shí),節點(diǎn)在其每個(gè)連接上接收不同的數據項(不同的數字),并將其乘以相關(guān)權重。
然后它將得到的乘積,加在一起,產(chǎn)生一個(gè)結果數字。如果該數字低于傳輸閾值,則節點(diǎn)不將數據傳遞給下一層。如果數量超過(guò)傳輸閾值,則節點(diǎn)“觸發(fā)”,意味著(zhù)沿其所有傳出連接發(fā)送數字 - 加權輸入的總和。

當訓練神經(jīng)網(wǎng)絡(luò )時(shí),其所有權重和閾值最初都設置為隨機值。訓練數據被饋送到底層 - 輸入層 - 它通過(guò)后續層,以復雜的方式相乘并加在一起,轉換傳輸到輸出層。在訓練期間,系統不斷調整權重和閾值,直到具有相同標簽的訓練數據始終產(chǎn)生類(lèi)似的輸出。
神經(jīng)網(wǎng)絡(luò )的發(fā)展
McCullough和Pitts在1944年描述的神經(jīng)網(wǎng)絡(luò )具有閾值和權重,但它們沒(méi)有排列成層,研究人員沒(méi)有指定任何訓練機制。McCullough和Pitts所展示的是,神經(jīng)網(wǎng)絡(luò )原則上可以計算數字計算機可以執行的任何功能,關(guān)注重點(diǎn)是人腦可以被認為是一種計算設備的概念。
康奈爾大學(xué)心理學(xué)家弗蘭克羅森布拉特于1957年展示了第一個(gè)可訓練的神經(jīng)網(wǎng)絡(luò )Perceptron。Perceptron的設計與現代神經(jīng)網(wǎng)絡(luò )的設計非常相似,只是它只有一層可調節重量和閾值,夾在輸入之間和輸出圖層。

而現代GPU使20世紀60年代的單層網(wǎng)絡(luò )和20世紀80年代的2到3層網(wǎng)絡(luò )成為當今的10層,15層甚至50層網(wǎng)絡(luò )。這也是“深度學(xué)習”中的“深層”所指的意思——網(wǎng)絡(luò )層的深度。
神經(jīng)網(wǎng)絡(luò )后續展望
2010年后神經(jīng)網(wǎng)絡(luò )的復興 - 深度學(xué)習革命 – 首先來(lái)自計算機游戲行業(yè)。視頻游戲的復雜圖像和快節奏需要能夠跟上的硬件,結果是圖形處理單元(GPU)快速發(fā)展,它在單個(gè)芯片上包含數千個(gè)相對簡(jiǎn)單的處理核心。不久人們就意識到GPU的架構與神經(jīng)網(wǎng)絡(luò )的架構非常相似。
同時(shí),為了更高效的研究和利用神經(jīng)網(wǎng)絡(luò ),更多硬件方案涌現了出來(lái), Intel收購Altera,谷歌自研TPU,業(yè)界還在尋找更高效的方法,也在側面印證神經(jīng)網(wǎng)絡(luò )的火爆程度。
現在,神經(jīng)網(wǎng)絡(luò )更是計算機領(lǐng)域和神經(jīng)科學(xué)領(lǐng)域的寶貴工具。用于調整權重和閾值的特定網(wǎng)絡(luò )布局或規則已經(jīng)再現了人類(lèi)神經(jīng)解剖學(xué)和認知學(xué)里觀(guān)察到的特征,表明它幫助獲取了關(guān)于大腦如何處理信息的機制。
但是,神經(jīng)網(wǎng)絡(luò )有些令人不滿(mǎn)意的不足:足夠的訓練會(huì )改變神經(jīng)網(wǎng)絡(luò )的設置,使其可以對數據進(jìn)行分類(lèi),但其中的過(guò)程過(guò)于復雜,查看單個(gè)連接的權重無(wú)法解釋其原理;物體識別器看重的圖像特征是什么,以及它是如何將它們拼湊成汽車(chē),房屋和咖啡杯的獨特視覺(jué)特征的也尚不明確;類(lèi)似這些問(wèn)題都導致神經(jīng)網(wǎng)絡(luò )作用的機制具有一定的不透明性和不可解釋性。
在這些問(wèn)題得到解決后,神經(jīng)網(wǎng)絡(luò )的作用機制將進(jìn)一步可控。同時(shí),神經(jīng)網(wǎng)絡(luò )作為神經(jīng)科學(xué)和計算科學(xué)領(lǐng)域的工具,將在人工智能大時(shí)代,得到更好的發(fā)展。