
IBM首席數據官(CDO) Inderpal Bhandari指出,“神經(jīng)網(wǎng)絡(luò )(Neural network)已經(jīng)存在很長(cháng)一段時(shí)間了。最新的進(jìn)展是我們必須為其處理大量的資料,以及強化與其有關(guān)的工程實(shí)力。”
他描述采用“生成對抗網(wǎng)絡(luò )”(GAN)的研究進(jìn)展指出,透過(guò)讓兩種神經(jīng)網(wǎng)絡(luò )相互競爭,可望創(chuàng )造出更好的神經(jīng)網(wǎng)絡(luò )。“這是一種導引出更多算法的工程思考——現在已經(jīng)因此而激蕩出很多關(guān)于神經(jīng)網(wǎng)絡(luò )方面的工程技術(shù)了。”
從某些方面來(lái)看,這些算法可用于預測未來(lái)的硬件。例如,Dun & Bradstreet的首席資料科學(xué)家Anthony Scriffignano指出,“量子(quantum)算法將會(huì )變得越來(lái)越熱門(mén),因為當這類(lèi)算法成功可用后,就能用于執行一些量子計算機才能做的事。”
“深度信念網(wǎng)絡(luò )”(DBN)是另一種熱門(mén)的新興途徑。Scriffignano將其定義為“一種非漸進(jìn)式方法,能夠讓你一邊學(xué)習一邊修正目標與目的,因而具有明日神經(jīng)形態(tài)計算機的特性,”并形成一種適于仿真人腦的系統。
美國斯坦福大學(xué)(Stanford University)計算機科學(xué)教授Christopher Re開(kāi)發(fā)的通用數據深度探勘工具——DeepDive算法一直備受關(guān)注。該校數據科學(xué)計劃主管Stephen Eglash指出,這種算法有助于讓計算機更易于了解并使用文本、表格和圖表等非結構化的數據,就像掌握關(guān)系數據庫或電子表格一樣輕松。
“現有的數據大部份都是非結構化或半結構化的。例如,我們可以輕松地讀取規格表,但計算機卻很難像我們一樣理解。”

20170710_bigdata_NT31P1以一種DeepDive程序理解基于知識建構的非結構化數據
Deep Dive已經(jīng)用于協(xié)助腫瘤學(xué)家以計算機解釋腫瘤照片。此外,美國紐約檢察總長(cháng)也用它作為執法工具。至今,它已經(jīng)應用在各個(gè)不同領(lǐng)域的許多公司了。
Eglash說(shuō),DeepDive之所以如此獨特,部份原因在于“它能辨識并標記所有的數據,然后用學(xué)習引擎和概率技術(shù)來(lái)確定數據的意思。”
盡管這種途徑十分成功,但它只是近來(lái)學(xué)術(shù)界開(kāi)發(fā)的多種算法之一。其他算法有的專(zhuān)注于計算機視覺(jué)(computer vision)等領(lǐng)域,或嘗試在實(shí)時(shí)數據串流中找出異常之處。Eglash強調,“如此就能讓我們持續進(jìn)行更深入的研究。”
掌握有趣的數據集
讓開(kāi)發(fā)人員腎上腺素飆高的部份原因,就在于他們必須從現實(shí)世界中取得有趣的數據集。GE Digital的Predix云端工程負責人Darren Haas聲稱(chēng)在這方面取得了優(yōu)勢。
Haas說(shuō):“我想有些人可能沒(méi)機會(huì )看看我們所提供的數據。我們從飛機、衛星和火車(chē)取得了高達數千兆字節(petabyte)的傳感器資料。如果將這三者關(guān)聯(lián)起來(lái),就可以提供很多信息,例如農場(chǎng)或紅杉樹(shù)看起來(lái)健康或是病了。”
Hass原本任職于蘋(píng)果(Apple),負責部署其中一項最大的Hadoop,用于執行像Siri等任務(wù)。他說(shuō)GE Digital已經(jīng)從亞馬遜(Amazon)、Facebook和Google吸收到編程人才,“當我展示我們正著(zhù)手進(jìn)行的數據集時(shí),他們都感到十分震驚。”
事實(shí)上,位于加州的通用電氣(GE)軟件部門(mén)已經(jīng)從幾年前約800個(gè)編程人員,迅速增加到目前約有2,000人了。
Haas個(gè)人喜歡的一種編程語(yǔ)言是Go。這是少數幾種已編譯的編程語(yǔ)言之一,如Elixir和Erlang一樣,現在重新獲得了機器學(xué)習(machine learning)開(kāi)發(fā)人員的再度關(guān)注。
“在實(shí)作層,我一直鼓勵自家團隊使用Go,”Haas指出,GE也定期舉辦Go語(yǔ)言的聚會(huì )。“它已經(jīng)過(guò)編譯了、速度快、涵蓋各種應用,而且更有效管理內存。我還教12歲的兒子學(xué)Go呢,因為,我認為這是未來(lái)的趨勢。”
像Go這樣的編譯語(yǔ)言確實(shí)適用于執行環(huán)境。
他說(shuō):“如果您需要串流數據或事件中樞,全部都以Go來(lái)寫(xiě)最恰當不過(guò)了。”相形之下,“我看到的每一個(gè)Node.js項目在四個(gè)月后都得重新編寫(xiě)。”
也就是說(shuō),“很多人都大量使用Python。我認為它是機器學(xué)習的主流,適合數據分析、擷取數據和建構模型……等等,而且,Matlab的R也很重要。”
無(wú)論是哪一種語(yǔ)言,重要的發(fā)展趨勢就是自動(dòng)化功能。
“很多人都用數據科學(xué)家說(shuō)的‘何者正確與否’,以手動(dòng)策劃數據集與模型。”Haas說(shuō):“但我們想用串流、偵測異常的方式進(jìn)行,在封閉的反饋回路中通知用戶(hù)。”