ImageNet 競賽落幕,視頻分析成為新熱點(diǎn)
素有國際“計算機視覺(jué)奧林匹克”之稱(chēng)的 ImageNet 挑戰賽今年已是最后一期,這標志著(zhù)靜態(tài)圖片的分類(lèi)、物體檢測等任務(wù)日趨成熟。但是在視頻內容分析領(lǐng)域仍存在巨大挑戰,也是當前學(xué)術(shù)界的研究熱點(diǎn)。ACM Multimedia 作為多媒體領(lǐng)域的頂級學(xué)術(shù)會(huì )議,旗下大規模視頻分類(lèi)挑戰賽 (LSVC) 意在考察大規模未分割視頻的算法識別能力。
LSVC 使用的數據集是在復旦-哥倫比亞視頻數據集 (FCVID) 基礎上擴充而來(lái),它包含來(lái)自 YouTube 和 Flicker 的超過(guò) 8000 小時(shí)的視頻,標注為 500 種分類(lèi)。包括社交事件、動(dòng)作、物體、場(chǎng)景等多種類(lèi)型。最終測試集為 78,000 多個(gè)視頻。
萬(wàn)億級數據處理系統支撐+算法優(yōu)化
針對本次挑戰賽任務(wù)的復雜情況,團隊為海量視頻數據設計的流式數據處理系統 (Elastic Streaming Sequential Data Processing System) 及七牛云存儲系統提供了重要支撐。ESSP 系統基于微服務(wù)搭建,充分考慮了視頻分析處理中空間和時(shí)序特征的存取需求,系統支持任務(wù)自動(dòng)調度,多節點(diǎn)機器學(xué)習組件自動(dòng)并行;主節點(diǎn)和工作節點(diǎn)均采用 Kubernetes 進(jìn)行容器管理,可以靈活地進(jìn)行服務(wù)部署、維護及擴展。

海量視頻數據設計的流式數據處理系統(Elastic Streaming Sequential Data Processing System)
算法層面,團隊采用了多種模態(tài)信息對視頻內容進(jìn)行描述,包括視頻幀特征、光流特征、音頻特征等,并采用了包含 Squeeze-and-Excitation 結構的 NetVLAD、DBoF 等網(wǎng)絡(luò )對多種特征進(jìn)行聚合。團隊還研究了一種緊湊高效的視頻幀特征表示方法,利用該方法可以減小模型規模、并極大地提升模型訓練速度。團隊最終取得了87.05%的準確率,以0.36%之差位居亞軍,比第三名參賽隊高出近2個(gè)百分點(diǎn)。
傳說(shuō)中的聯(lián)合戰隊
AtLab 和中科院上海高等研究院視覺(jué)數據智能分析實(shí)驗室組建的聯(lián)合戰隊在視頻、檢測等學(xué)術(shù)領(lǐng)域建立了長(cháng)期研究合作關(guān)系,優(yōu)勢互補,此次首戰視頻競賽即取得不錯的成果。

AtLab 和中科院上海高等研究院視覺(jué)數據智能分析實(shí)驗室組建的聯(lián)合戰隊
中科院上海高等研究院視覺(jué)數據智能分析實(shí)驗室著(zhù)力于視覺(jué)大數據智能分析技術(shù)的研究和應用,如海量視頻分析、字符檢測識別、場(chǎng)景理解等基礎計算機視覺(jué)問(wèn)題,為視覺(jué)智能應用提供技術(shù)支撐。
AtLab 成立僅一年的時(shí)間,但團隊核心成員都在人工智能領(lǐng)域積累了多年經(jīng)驗,AtLab 發(fā)起人彭垚在富媒體海量數據分析與機器學(xué)習領(lǐng)域有超過(guò) 10 年的產(chǎn)品研發(fā)經(jīng)驗,曾擔任 IBM 系統與科技實(shí)驗室研發(fā)架構和管理工作多年,已在美國、法國發(fā)表數篇專(zhuān)業(yè)領(lǐng)域發(fā)明專(zhuān)利。
此次獲獎,是對 AtLab 學(xué)術(shù)應用能力的檢驗。彭垚表示:七牛云從存儲起家,經(jīng)歷多年的積累,存儲的圖片總量超過(guò) 2000 億張,視頻長(cháng)度超過(guò) 10 億小時(shí)。對擁有這些數據的客戶(hù)來(lái)說(shuō),他們的圖像視頻內涵到底是什么非常重要:首先他們需要去審核這些內容是否健康、合法。更重要的是,他們希望通過(guò)這些用戶(hù)上傳的數據內容做一些深度的分析,這對用戶(hù)畫(huà)像的構建,增加平臺對用戶(hù)的粘性有非常大的價(jià)值。

七牛云智能多媒體API
七牛的理念就是縮短想法到產(chǎn)品的距離,所以七牛成立人工智能實(shí)驗室 AtLab,在底層構建了彈性深度學(xué)習平臺 AVA 來(lái)滿(mǎn)足巨大的計算需求。在應用層提供多個(gè)計算機視覺(jué) API ,幫助企業(yè)把人工智能與具體的業(yè)務(wù)結合,讓計算機視覺(jué)在廣電、傳媒、安防、金融等行業(yè)落地。在不久的將來(lái),七牛會(huì )把平臺能力開(kāi)放出去,提供一套完整的數據集和模型生產(chǎn)工具鏈。