
高通公司多媒體研發(fā)高級工程總監Ananth Kandhadai
沉浸式體驗的新時(shí)代已經(jīng)來(lái)臨,這在很大程度上得益于計算機視覺(jué)技術(shù)的引領(lǐng)。無(wú)論是模糊用戶(hù)背景的虛擬呼叫,還是在公路上成功實(shí)現自動(dòng)駕駛的汽車(chē),計算機視覺(jué)技術(shù)的進(jìn)步正在變革人們的生活方式。
二十多年來(lái),高通公司多媒體研發(fā)高級工程總監Ananth Kandhadai一直是發(fā)明各類(lèi)計算機視覺(jué)和人工智能技術(shù)的領(lǐng)軍人物。自1996年加入公司以來(lái),Ananth的研究領(lǐng)域包括語(yǔ)音編碼、圖像處理、深度學(xué)習、視覺(jué)硬件加速、功率約束的系統設計,以及增強現實(shí)/虛擬現實(shí)(AR/VR)系統解決方案。目前,他領(lǐng)導著(zhù)一個(gè)工程師團隊,專(zhuān)注于研發(fā)面向擴展現實(shí)(XR)應用的計算機視覺(jué)和攝像系統。
Ananth來(lái)自印度,在卡利卡特國立技術(shù)學(xué)院獲得電子工程學(xué)士學(xué)位后,他前往美國,并在弗吉尼亞理工大學(xué)獲得了電子工程碩士學(xué)位。在那之后,他面臨著(zhù)一個(gè)選擇:繼續深造并攻讀博士學(xué)位,或者在高通開(kāi)始他的工程師生涯。他選擇了高通,并開(kāi)始了對移動(dòng)語(yǔ)音編碼和標準化的研究。Ananth認為他做出了正確的決定,并表示與選擇學(xué)術(shù)界相比,他在高通學(xué)到更多,成長(cháng)得更快。
多年來(lái),由Ananth引領(lǐng)的一些創(chuàng )新性發(fā)明包括:使智能手機攝像頭能夠基于用戶(hù)的環(huán)境變化來(lái)啟動(dòng)應用程序,以及在語(yǔ)音編碼和圖像與信號處理領(lǐng)域的大量工作。如果沒(méi)有Ananth的技術(shù)突破,我們可能無(wú)法享有目前的一些智能終端和豐富的多媒體體驗。
近期我們與Ananth進(jìn)行了深入交流,談到了他在加入高通技術(shù)公司后,在信號處理和計算機視覺(jué)交叉領(lǐng)域的杰出職業(yè)生涯。
在加入高通的25年里,您主要研究哪些技術(shù)?
我在高通的一半以上的時(shí)間都在從事語(yǔ)音編碼和標準化領(lǐng)域的工作——總體來(lái)說(shuō),就是面向手機的語(yǔ)音壓縮技術(shù)。蜂窩和衛星通信是我從1996年起就開(kāi)始從事的工作,后來(lái)我轉向了研究圖像處理和計算機視覺(jué)。
長(cháng)期以來(lái)我一直將信號處理作為核心研究領(lǐng)域,將其應用于語(yǔ)音編碼、語(yǔ)音壓縮和語(yǔ)音處理。之后,我轉向了影像處理和計算機視覺(jué)領(lǐng)域。目前,我正在研究面向XR和一些其他顯示和渲染方面的特定計算機視覺(jué)應用。
我的工作變動(dòng)也反映了高通公司的發(fā)展歷程。在我剛加入工作時(shí),無(wú)線(xiàn)手機用戶(hù)數量要少很多,所以那段時(shí)間我長(cháng)期參與系統擴容。當用戶(hù)數量提升之后,我們逐漸開(kāi)始新的布局,于是我們說(shuō):“好吧,讓我們來(lái)增加一些拍照手機。”如果你還記得早期那些翻蓋手機,應該有印象,它們的攝像頭很小。大家最初看到拍照手機爆發(fā)式增長(cháng)的時(shí)候,我正在從事相關(guān)工作,遇到過(guò)許多不同的技術(shù)挑戰。
幾年后,當那些攝像頭需要變得更智能時(shí),我就專(zhuān)注于運用計算機視覺(jué)——一種使計算機能夠檢測現實(shí)世界中的物體,并對其做出反應的功能。隨著(zhù)我們邁入應用計算機視覺(jué)的新世界,我就轉而研究未來(lái)可用于XR(擴展現實(shí))應用的技術(shù)。我專(zhuān)注研究的技術(shù)領(lǐng)域與高通的技術(shù)重點(diǎn)同步轉換,這并非巧合。
對于那些可能不太了解計算機視覺(jué)的人,您能通俗地解釋一下它是什么以及為何重要嗎?
試想一下人們佩戴眼鏡——比如矯正鏡片,每個(gè)人都了解矯正鏡片。人們佩戴它,是為了更清晰地觀(guān)察世界,對吧?簡(jiǎn)單來(lái)說(shuō),人們在頭上佩戴某些東西是為了更好地觀(guān)察和感知世界——在某種程度上,這增強或擴展了現實(shí)世界。
計算機視覺(jué)是一種數字化方式,用于感知、記錄和理解單個(gè)攝像頭或一系列攝像頭所生成的可視數據。比如,找到人眼自然識別的模式,或是太微妙、甚至人眼無(wú)法察覺(jué)的數據模式。無(wú)論是自動(dòng)駕駛汽車(chē)的障礙識別功能,還是在虛擬通話(huà)中區分前景背景的功能,從根本上來(lái)說(shuō),它都是通過(guò)創(chuàng )建用計算機解釋可視數據的方法來(lái)實(shí)現的。
隨著(zhù)終端變得更加智能,它需要自動(dòng)分析出這些模式。終端需要像一個(gè)數字化的助理一樣,感知用戶(hù)及其周?chē)h(huán)境。此類(lèi)自動(dòng)感知技術(shù)要求終端具備智能計算機視覺(jué)功能——幾乎像第三只眼睛一樣,來(lái)提供無(wú)縫用戶(hù)體驗。這就是計算機視覺(jué)對所有不同的應用都至關(guān)重要的原因。
在研究應用計算機視覺(jué)的過(guò)程中,您遇到過(guò)哪些技術(shù)挑戰?您是如何努力應對挑戰的?
人們可能會(huì )說(shuō):“哦,這就好像多了一雙眼睛”。但是眼睛本身很容易復制——它只是光的接收裝置。難點(diǎn)在于復制眼睛后面處理信息的大腦。大腦是神經(jīng)科學(xué)和意識的經(jīng)典研究領(lǐng)域,人們如何感知現實(shí)這個(gè)問(wèn)題甚至尚未被完全了解。但這正是我們試圖在機器上復制的東西。在不經(jīng)歷數百萬(wàn)年進(jìn)化的情況下,研究與人類(lèi)頭腦具有相同可靠性水平的終端,這是第一個(gè)挑戰。
高通正在解決的最重要的問(wèn)題是,當在用戶(hù)在頭上佩戴XR終端這樣的設備時(shí),需要保證設備是輕便的,不能過(guò)熱,它的功耗也必須非常低。這意味著(zhù)不能只用大量算力和內存來(lái)解決計算機視覺(jué)和感知等方面的難題。終端必須足夠輕便和涼爽,才能使用戶(hù)舒適地將其佩戴于頭部,這歸根結底涉及到功耗效率的創(chuàng )新。
功耗和計算復雜性總是彼此沖突,但可用性要求二者針對不同的消費終端外形進(jìn)行同步優(yōu)化。
計算機視覺(jué)在不同應用中有何不同,比如汽車(chē)駕駛輔助、無(wú)人機、機器人和XR?
本質(zhì)上講,這些不同的應用在所處理的基本任務(wù)上是相似的。例如,了解XR終端用戶(hù)的頭部位置或攝像頭的位置,與汽車(chē)在自動(dòng)駕駛時(shí)需要了解周?chē)h(huán)境,或無(wú)人機在自動(dòng)駕駛模式下跟蹤物體都非常相似。以上所有產(chǎn)品的攝像頭和視覺(jué)系統都需要明確終端周?chē)膶?shí)際情況。因此,將人工智能(AI)技術(shù)用于物體檢測、3D重建、地圖構建、物體識別、頭部追蹤和眼動(dòng)跟蹤等不同用例,從概念上看都非常相似。無(wú)人機用例略有不同,因為在物理上操控者已經(jīng)脫離機器本身,機器中沒(méi)有人。
然而,這里還存在著(zhù)其他方面的因素,導致計算機視覺(jué)對各個(gè)用例來(lái)說(shuō)都有本質(zhì)的不同。這就是為什么很難拿出一個(gè)萬(wàn)能的解決方案。可以打個(gè)比方,你可以說(shuō)人類(lèi)、獵豹和花豹都有四肢和嘴,都是肉食性動(dòng)物。它們是有相似性的,但又有著(zhù)需要針對各自不同的環(huán)境和情況進(jìn)行的不同優(yōu)化。
汽車(chē)上有牢固安裝的攝像頭,其技術(shù)重點(diǎn)是影像的穩定性。汽車(chē)通常只在路面上行駛,但它們行駛的速度很快。最重要的是,汽車(chē)計算機視覺(jué)中,錯誤的代價(jià)在車(chē)上更具災難性。這讓該項技術(shù)變得很難,但也更具可預測性。
相比之下,把一組類(lèi)似的攝像頭放在用戶(hù)頭上就不一樣了:用戶(hù)可能身處任何地方,不斷地以不可預測的模式移動(dòng)頭部,這讓頭部攝像頭看到的場(chǎng)景比車(chē)載攝像頭看到的更加難以預測。在這個(gè)意義上,XR頭顯和汽車(chē)計算機視覺(jué)系統提出的假設有些許不同。基本技術(shù)保持不變,但它們的工程設計方式使其成為完全不同的問(wèn)題。
而最終,盡管我們解決問(wèn)題的方法可能截然不同,但當涉及到我們芯片組的實(shí)際架構變化時(shí),這些不同領(lǐng)域之間其實(shí)存在著(zhù)許多協(xié)同效應。我們常常發(fā)現,在架構層面針對一個(gè)用例所做的決定,最終會(huì )有助于實(shí)現另一個(gè)用例。
高通如何支持您的工作,公司通過(guò)什么方式幫助您創(chuàng )造這些計算機視覺(jué)技術(shù)?
我很幸運能在高通工作,因為我們在連接、應用處理器和智能手機平臺方面有成熟的業(yè)務(wù)。這使我們處于一個(gè)有利位置,讓我的團隊能夠專(zhuān)注于計算機視覺(jué)的技術(shù)層面,比如感知和渲染,從而建立有效方式,讓客戶(hù)和最終用戶(hù)獲得這些技術(shù)功能。
高通還與計算機視覺(jué)相關(guān)領(lǐng)域的主要行業(yè)領(lǐng)導者保持著(zhù)良好的關(guān)系,這有助于我們在努力解決的根本性問(wèn)題上保持一致。我能夠解決很多問(wèn)題,但其中的大量問(wèn)題可能不是實(shí)際問(wèn)題。圍繞實(shí)際問(wèn)題進(jìn)行協(xié)作、制定規范是很重要的,而與其他公司保持良好關(guān)系有助于我們做到這些。
總體而言,高通積極地推動(dòng)我們團隊提出的解決方案。公司會(huì )采用相關(guān)解決方案,尋找方法將其轉化為商機,這需要解決方案的路線(xiàn)圖,并且有助于使我們的產(chǎn)品與其他公司形成差異化。同樣地,業(yè)務(wù)團隊會(huì )給我們帶來(lái)一些挑戰。他們與客戶(hù)交流獲取市場(chǎng)需求,然后給我們時(shí)間去思考和實(shí)現這些需求。尤其對于XR這樣的應用,它的業(yè)務(wù)規模還無(wú)法與智能手機相比。但高通有著(zhù)長(cháng)期愿景,并且鼓勵我們去實(shí)現。這使我們能夠專(zhuān)注于技術(shù),而不是僅僅試圖弄清這些技術(shù)如何實(shí)現商業(yè)化。
最后,高通有許多團隊致力于從各個(gè)方面研究和設計行業(yè)領(lǐng)先的系統級芯片(SoC),這讓我們能夠與公司其他部門(mén)的不同團隊合作,來(lái)分享和利用在其他情況下很難獲取的知識。公司的流程允許我們向其他團隊提供建議,并在不同應用中根據不同目的使用他們的工作成果,而協(xié)作是這個(gè)流程中必須的。結果證明,這樣的協(xié)作大有裨益。
對于希望在語(yǔ)音識別或計算機視覺(jué)技術(shù)領(lǐng)域開(kāi)展職業(yè)生涯的年輕發(fā)明家(他們或許還在上學(xué)),您會(huì )給他們什么建議?
根據我自己的經(jīng)驗,我建議將發(fā)明看作是解決現實(shí)問(wèn)題的附帶結果。專(zhuān)注于解決難題,并且相信那些難題將把你引向創(chuàng )新性的解決方案。如果你發(fā)現了其他人尚未解決的問(wèn)題,我認為這就值得你花時(shí)間去解決。雖然會(huì )有風(fēng)險,人們沒(méi)能解決它可能是有原因的,但這些問(wèn)題通常是值得去研究的。很可能會(huì )有貪多嚼不爛的問(wèn)題,但我認為這不值得擔憂(yōu)。持續不斷地去調整和改進(jìn)就好了,永遠不要低估自己的想象力和創(chuàng )造力。某個(gè)問(wèn)題沒(méi)有被解決并不能說(shuō)明什么——或許它恰好就在等待你去研究。研究任何事物都需要新視角,尤其是那些“尚未解決”的問(wèn)題。
歸根結底,重要的是去正確地解決問(wèn)題——不必專(zhuān)注于尋找華而不實(shí)或另辟蹊徑的解決方案。根據我的經(jīng)驗,創(chuàng )新很有可能來(lái)自于解決那些難題。在我們申請專(zhuān)利時(shí),這個(gè)原則也很有用。專(zhuān)利部門(mén)會(huì )評估一項技術(shù)的創(chuàng )新性和影響力,也會(huì )參考其新穎性和實(shí)用性。所有這些評估專(zhuān)利是否有用的指標,都以你要解決的問(wèn)題為基礎。