Google宣布開源視頻剪裁框架AutoFlip，實現(xiàn)智能化自動裁剪視頻。

　　隨著移動設備的進一步普及，越來越多的消費者選擇在移動設備上觀看視頻。據eMarketer2019年的數據，美國消費者每天平均在移動設備上花費3小時43分鐘，比花在看電視上的時間還多了8分鐘，這也是人們第一次被發(fā)現(xiàn)花費在移動設備上的時間多于看電視的時間。

　　然而，傳統(tǒng)的內容生產設備制作的視頻大多數是橫屏（landscape）的，而移動顯示設備默認是豎屏的（portrait），這就導致橫屏內容在豎屏設備上的播放體驗并不是很好。

　　視頻裁剪是解決這個問題的方法之一。然而，人工的視頻裁剪是一件非�？菰�、耗時且精細的工作，普通人很難勝任。因此，誕生了許多智能視頻裁剪的算法，期望通過算法可以自動、快速地完成優(yōu)質的視頻裁剪。GoogleAI13日在官博宣布開源框架AutoFlip，就是實現(xiàn)影片智能化自動剪裁的一個解決方案。

　　AutoFlip是一個基于MediaPipe框架的智能視頻剪裁工具。它可以根據指定的寬高比，對影片內容進行分析，制定最佳裁剪策略，并自動輸出相同時長的新視頻。

　　左：原始視頻（16：9）。中：使用靜態(tài)的居中裁剪（9:16）重新構圖。右：使用AutoFlip（9:16）重新構圖。通過檢測感興趣的目標物，AutoFlip可以避免裁剪掉重要的內容。

　　其中，MediaPipe是一款由GoogleResearch開發(fā)并開源的多媒體機器學習模型應用框架。目前，YouTube、ARCore、GoogleHome以及Nest等，都已經與MediaPipe深度整合。

　　我們也很幸運地聯(lián)系到了MediaPipe團隊，對有關AutoFlip移動端的適用性提出了一些疑問，其中，軟件工程師@jiuqiant表示，根據自己的經驗，由于MediaPipe本身是跨平臺框架，因此AutoFlip可以輕松移植到Android和iOS。AutoFlip演示依賴于MediaPipe的對象檢測和面部跟蹤子圖，它們都是Android和iOS上MediaPipe的實時應用程序。因此，AutoFlip在移動平臺上也應具有類似的性能。

　　AutoFlip為智能視頻剪裁提供了一套全自動的解決方案，它利用先進的目標檢測與追蹤技術理解視頻內容，同時會檢測視頻中的場景變化以便分場景進行處理。在每一個場景中，視頻分析會先分析場景中的顯著性內容，然后通過選擇不同的相機模式以及對這些顯著性內容在視頻中連成的路徑進行優(yōu)化，從而達到場景的裁剪與重構。

　如圖所示，AutoFlip剪裁影片有三個重要的步驟：鏡頭邊界檢測、影片內容分析以及重新取景。

　　1）鏡頭邊界檢測

　　場景或者鏡頭是連續(xù)的影像序列，不存在任何剪輯。為了偵測鏡頭變化的發(fā)生，AutoFlip會計算每一幀顏色的直方圖，并與前一幀進行比較。當直方圖在一個歷史的窗口中以明顯不同于以往的速率變化時，則表示鏡頭切換。為了對整個場景進行優(yōu)化，AutoFlip會在得出剪輯策略前緩存整個視頻。

　　2）鏡頭內容分析

　　Google利用基于深度學習技術的檢測模型在視頻幀中找出有趣、突出的內容，這些內容通常包括人和動物。但根據應用程序不同，其他元素也會被檢測出來，包括文本和廣告logo、運動中的球和動作等。

　左：體育錄像中的人物檢測。右：兩個臉部框（“核心”和“所有”臉部標識）

　　人臉和物體檢測模型通過MediaPipe整合到AutoFlip中，這是在CPU上使用了TensorFlowLite。這個架構使得AutoFlip的可擴展性更大，開發(fā)者們也因此可以便捷地為不同的使用場景和視頻內容添加新的檢測算法。

　　3）重新取景

　　在確定每一幀上感興趣的目標物之后，就可以做出如何重新剪裁視頻內容的邏輯決策了。AutoFlip會根據物體在鏡頭中的行為，自動選擇靜止、平移或追蹤等最佳取景策略。其中，追蹤模式可以在目標對象在畫面內移動時對其進行連續(xù)和穩(wěn)定的跟蹤。

　　如上圖所示，第一行是AutoFlip根據幀級的邊界框追蹤到的相機路徑，第二行是平滑后的相機路徑。左側是目標對象在畫面中移動的場景，需要一個追蹤相機路徑；右側是目標物體停留在近乎相同位置的場景，一個固定攝像機即可拍攝在整個場景中全部時長的內容。

　　AutoFlip有一個屬性圖，可以提供最佳效果或自定義需求的剪輯。如果發(fā)現(xiàn)剪輯出來的鏡頭無法覆蓋整個影片區(qū)域的情況時（例如目標在某一幀視頻中顯得太大），AutoFlip會自動切換到相對不那么激進的策略上。它會使用信箱效應，在保持原始視頻尺寸的同時用黑邊模式填充影片，使畫面看起來更自然。

　　隨著人們用來觀看視頻的設備越來越多樣化，讓任何視頻格式都能快速適應不同屏幕比例的能力也顯得越發(fā)重要。而AutoFlip能夠快速地自動剪輯影像，適合在各種設備上播放。

　　和其它機器學習算法一樣，AutoFlip的性能會隨著目標檢測等能力的提升而大大加強，尤其是衍生出來的能力，例如采訪鏡頭中的說話人檢測或動漫中的動物臉檢測等等。

　　Google稱接下來會繼續(xù)改進AutoFlip，尤其是針對影片前景文字或圖標因為重新取景而被裁掉的情況。同時，Google也希望AutoFlip能進一步融合自然語言處理等技術，從而實現(xiàn)更合理的視頻智能剪裁。

　　References：

　　https://insights.digitalmediasolutions.com/articles/digital-mobile-dominate

　　https://github.com/google/mediapipe/issues/471

　　最后一個小小的tips，如果大家有針對文章內容的具體問題，歡迎在留言區(qū)互動，我們會努力將你的問題反饋給相應專業(yè)領域的技術專家，以便大家能夠共同參與討論。

　　原文鏈接：https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

Google開源框架AutoFlip 實現(xiàn)視頻智能剪裁

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)