
最近自動(dòng)駕駛新聞頻頻,如沃爾沃Uber聯(lián)手自動(dòng)駕駛,福特、Uber爭相發(fā)布無(wú)人駕駛商用時(shí)間線(xiàn),comma。ai開(kāi)源,tesla首例自動(dòng)駕駛致死車(chē)禍......由此我們也能看到自動(dòng)駕駛的熱度,看起來(lái)像未來(lái)商務(wù),但我們是否清楚這份技術(shù)離我們到底有多遠?
InfoQ有幸采訪(fǎng)到圖森互聯(lián)CTO,聯(lián)合創(chuàng )始人侯曉迪。
侯曉迪,2003年進(jìn)入上海交大,并于大三發(fā)表了高引用論文;加州理工計算與神經(jīng)系統博士,計算機視覺(jué)和認知科學(xué)領(lǐng)域專(zhuān)家。創(chuàng )立了基于頻域的視覺(jué)注意機制理論。是近10年來(lái)在視覺(jué)注意機制最有影響力的研究。是計算機視覺(jué)領(lǐng)域全球華人博士中學(xué)術(shù)文章被引用最多的作者,學(xué)術(shù)論文Saliency detection: A spectral residual approach(發(fā)表于CVPR)、Image signature: Highlighting sparse salient regions(發(fā)表于IEEE transactions on pattern analysis and machine intelligence )在學(xué)術(shù)領(lǐng)域具有重要影響。
InfoQ:在加州理工讀完博士后,是什么原因誘使您選擇創(chuàng )業(yè)呢?
侯曉迪:對我而言,創(chuàng )業(yè)是早在讀PhD之初就已經(jīng)決定了的。我希望能夠用更先進(jìn)的生產(chǎn)關(guān)系,試著(zhù)沖破玻璃天花板,解決一些學(xué)術(shù)圈本身解決不了的問(wèn)題。
在外人看來(lái),Caltech是個(gè)標準的faculty的搖籃。但其實(shí),沐浴在加州的資本陽(yáng)光下,在校內跨領(lǐng)域跨學(xué)科合作浪潮的鼓動(dòng)下,我校畢業(yè)生的創(chuàng )業(yè)比例卻高得嚇人。比如我所在的Computation & Neural Systems系,上下三屆20位同學(xué)中就有4個(gè)人選擇畢業(yè)后直接創(chuàng )業(yè)。
InfoQ:請問(wèn)有lidar和無(wú)lidar優(yōu)缺點(diǎn)是什么?他們的可靠性差別有多大 ?圖森是如何選擇的?
侯曉迪:信息量非負,多加任何傳感器,肯定不會(huì )幫倒忙。哪怕該信息已經(jīng)可以通過(guò)其他渠道獲得,加入后也可以起到交叉校驗、降低噪音等功能。
通過(guò)發(fā)射激光,LiDAR可以很準確地測出光朝著(zhù)某個(gè)方向前進(jìn),走多遠會(huì )碰到障礙物。這個(gè)信息雖然很有用,但也不過(guò)是自動(dòng)駕駛千里長(cháng)征的第一步。光靠分析點(diǎn)的距離,我們并不能直接讀出一坨點(diǎn)云對應的是什么物體,物體如何運動(dòng);更無(wú)法猜出汽車(chē)牌照、車(chē)道線(xiàn)標記、交通標志內容這些無(wú)法反映在3D點(diǎn)云上的信息。而且,一旦遇到下雨下雪或者重度霧霾這種會(huì )干擾激光的場(chǎng)景,LiDAR都會(huì )罷工。
LiDAR的好處是,可以一步跨越3D測距這個(gè)非常難的問(wèn)題,從一個(gè)比較容易的起點(diǎn)開(kāi)始做自動(dòng)駕駛。
我司沒(méi)有用LiDAR,主要的考慮是成本。今天32線(xiàn)LiDAR的市價(jià)是8萬(wàn)美元,在三年后,LiDAR的成本會(huì )不會(huì )是自動(dòng)駕駛普及的最大攔路虎?這個(gè)問(wèn)題現在當然沒(méi)人知道,圖森選擇的道路是,寧可從比較難的起點(diǎn)多花些功夫,做我們擅長(cháng)做的事(不借助LiDAR,直接基于機器視覺(jué)研發(fā)算法),也不要讓我們的商業(yè)化之路受制于我們無(wú)法控制的事情。
InfoQ:最近tesla出現的識別失敗導致的車(chē)禍事故可以避免嗎?或者誤識別的概率多大,以tesla最近的車(chē)禍場(chǎng)景為例?針對輔助駕駛/無(wú)人駕駛有哪些算法上的改進(jìn)?(是否有paper或者專(zhuān)利?)
侯曉迪:首先,Mobileye的EyeQ3本身只是一個(gè)輔助駕駛系統。但是市場(chǎng)接受TESLA的概念的時(shí)候,是作為自動(dòng)駕駛來(lái)炒作的。這相當于TESLA提前消費了大眾對自動(dòng)駕駛這項技術(shù)的信任。這是很糟糕的事情。
其次,小概率事件不意味著(zhù)它絕對不會(huì )發(fā)生,所以哪怕是一百年后,我相信自動(dòng)駕駛的車(chē)禍事故也不會(huì )100%完全避免。所以我在這里只談?wù)劕F行系統的問(wèn)題。
當前的模式識別學(xué)術(shù)界(以及衍生自學(xué)術(shù)界的工業(yè)界)過(guò)度地以“正確率”作為單一的優(yōu)化目標。一方面大家都知道,算法正確率越高,進(jìn)一步攀升的難度也就越大;另一方面,卻很少有人關(guān)注“如果識別錯了怎么辦”這一問(wèn)題。通用的做法是錯一次就扣一分,不管你是沒(méi)看到一輛近在眼前的大卡車(chē),還是把路旁的兔子識別成了狗。
在圖森,我們一直非常強調的一項技術(shù)積累是self-consciousness of AI——即,我們的算法不但需要進(jìn)行各種識別,還需要對“自己是否識別對了”進(jìn)行預估。從而進(jìn)一步提升系統可靠性。
我們申請了一些專(zhuān)利,也有paper發(fā)表。
InfoQ:您對最近開(kāi)源的comma。ai的有何看法?
侯曉迪:comma。ai是典型的深度學(xué)習福音派。這種思路一般稱(chēng)作end-to-end learning,認為只要把大量輸入(攝像頭拍攝畫(huà)面)輸出(油門(mén)角度、方向盤(pán)力度)數據扔給深度神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練,就能教會(huì )機器如何駕駛。所有的算法的問(wèn)題,最終都可以轉化為訓練數據的問(wèn)題,并乘著(zhù)大數據的東風(fēng)迎刃而解。
這個(gè)想法聽(tīng)起來(lái)很棒。但實(shí)際操作起來(lái)卻隱患重重。當系統碰到訓練集里沒(méi)有的突發(fā)情況時(shí),誰(shuí)也無(wú)法保證會(huì )發(fā)生什么。其實(shí)end-to-end的問(wèn)題并不是第一天才發(fā)現,業(yè)界很多人都嘗試過(guò),并匯報了類(lèi)似結果。比如今年GTC 16上,NVidia也介紹了他家的end-to-end driving system,一個(gè)最大的特點(diǎn)是,如果一切在預料中,汽車(chē)可以很神奇地保持行進(jìn)路線(xiàn);但只要稍微偏離,錯誤變會(huì )積累,偏差越來(lái)越大。換言之,系統不具備把自己從未知的意料之外的狀態(tài)中修正回來(lái)的能力。
相比來(lái)說(shuō),我司并不反對deep learning,但是我們堅持認為不能簡(jiǎn)單粗暴地把deep learning等價(jià)于machine learning,因為這種“未知的意料之外”是無(wú)論積累多少訓練數據都還是會(huì )存在的。接著(zhù)我剛才講的self-consciousness of AI,我們需要讓算法發(fā)現自己的錯誤,并將自我糾錯以先驗的形式加入到系統中來(lái)。想做到這一步,還時(shí)需要回過(guò)頭來(lái)借助許多傳統的,非deep的machine learning方法。
另外,comma。ai已經(jīng)公布的代碼和數據都很業(yè)余,充其量是研究生課程《自動(dòng)駕駛》的期末課程作業(yè),跟工業(yè)級算法系統完全沒(méi)有可比性(可能也正因此,comma。ai才舍得將其開(kāi)源吧)。
InfoQ:對于智能駕駛,您覺(jué)得是應該以改進(jìn)算法為主還是以積累駕駛數據訓練優(yōu)化為主?對于在中國,普及實(shí)現自動(dòng)駕駛主要難點(diǎn)有哪些?是否存在“中國特色”?
侯曉迪:改進(jìn)算法和積累駕駛數據訓練優(yōu)化是一對相輔相成的過(guò)程,缺一不可。我認為一個(gè)健康的商業(yè)模式一定會(huì )同時(shí)促進(jìn)這兩者。
在中國做自動(dòng)駕駛,一個(gè)難點(diǎn)在于很多公開(kāi)的學(xué)術(shù)圈數據集都是國外采集的(德國最多)。另一個(gè)難點(diǎn)是由于政策原因導致測繪數據的不完整。這兩點(diǎn)會(huì )對沒(méi)人手也沒(méi)錢(qián)的學(xué)術(shù)工作者和超早期創(chuàng )業(yè)團隊增加一些麻煩。我也確實(shí)見(jiàn)過(guò)有幾家國內公司,為了給自己強行造壁壘,每次在談到Mobileye的時(shí)候,都拿中國馬路上常見(jiàn)的超載大貨車(chē)說(shuō)事兒。但說(shuō)實(shí)話(huà),只要Mobileye想把有中國特色的大貨車(chē)納入到他們的平臺里,從采數據到訓練/遷移模型,分分鐘就能做好,根本不會(huì )有什么戰略壁壘。
算法的遷移和泛化相比整套系統,只是非常小的一部分工作量。更何況到了產(chǎn)品層,各家肯定都是自己在準備數據。所以自動(dòng)駕駛各家比拼到最后,還是得硬碰硬。