• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    重塑視頻會(huì )議NVIDIA Vid2Vid Cameo打造逼真的AI人臉說(shuō)話(huà)動(dòng)態(tài)

    2021-06-28 09:23:01   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      為了讓你在每次視頻通話(huà)中都能完美展現自己,在本周舉行的CVPR(國際計算機視覺(jué)與模式識別會(huì )議)上,由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫(xiě)發(fā)表的Vid2Vid Cameo論文提供了一個(gè)全新的解決方案。
      疫情期間,線(xiàn)上視頻會(huì )議成為人們生活與工作溝通的重要方式。但是你是不是會(huì )遇到如下尷尬:剛起床,頭發(fā)凌亂、穿著(zhù)睡衣,但是卻被老板拉上開(kāi)會(huì )。
      重塑視頻會(huì )議 NVIDIA Vid2Vid Cameo打造逼真的AI人臉說(shuō)話(huà)動(dòng)態(tài)
      為了讓你在每次視頻通話(huà)中都能完美展現自己,在本周舉行的CVPR(國際計算機視覺(jué)與模式識別會(huì )議)上,由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫(xiě)發(fā)表的Vid2Vid Cameo論文提供了一個(gè)全新的解決方案。
      逼真的AI人臉說(shuō)話(huà)動(dòng)態(tài)
      Vid2Vid Cameo是用于視頻會(huì )議的NVIDIA Maxine SDK背后的深度學(xué)習模型之一,它借助生成式對抗網(wǎng)絡(luò )(GAN),僅用一張人物2D圖像即可合成逼真的人臉說(shuō)話(huà)視頻。
      Vid2Vid Cameo只需兩個(gè)元素,即可為視頻會(huì )議打造逼真的AI人臉說(shuō)話(huà)動(dòng)態(tài),這兩個(gè)元素分別是一張人物外貌照片和一段視頻流,它們決定了如何對圖像進(jìn)行動(dòng)畫(huà)處理。
      要使用該模型,參與者需要在加入視頻通話(huà)之前提交一張參照圖像(真實(shí)照片或卡通頭像)。在會(huì )議期間,AI 模型將捕捉每個(gè)人的實(shí)時(shí)動(dòng)作,并將其應用于之前上傳的靜態(tài)圖像。
      也就是說(shuō),上傳一張穿著(zhù)正裝的照片之后,與會(huì )人員即使頭發(fā)凌亂、穿著(zhù)睡衣,也能在通話(huà)中以穿著(zhù)得體工作服裝的形象出現,因為AI可以將用戶(hù)的面部動(dòng)作映射到參照照片上。如果主體向左轉,則技術(shù)可以調整視角,以便參與者看上去是直接面對攝像頭。
      除了可以幫助與會(huì )者展現出色狀態(tài)外,這項AI技術(shù)還可將視頻會(huì )議所需的帶寬降低10倍,從而避免抖動(dòng)和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出,為開(kāi)發(fā)者提供經(jīng)過(guò)優(yōu)化的預訓練模型,以便在視頻會(huì )議和直播中實(shí)現視頻、音頻和增強現實(shí)效果。
      更廣的應用空間
      其實(shí)應用于視頻通話(huà)只是Vid2Vid Cameo的一個(gè)重要應用場(chǎng)景,其還可用于協(xié)助動(dòng)畫(huà)師、照片編輯師和游戲開(kāi)發(fā)者的工作。開(kāi)發(fā)者已經(jīng)能采用Maxine AI效果,包括智能除噪、視頻升采樣和人體姿態(tài)估計。SDK支持免費下載,還可與NVIDIA Jarvis平臺搭配用于對話(huà)式AI應用,包括轉錄和翻譯。
      模型基于NVIDIA DGX系統開(kāi)發(fā),使用包含18萬(wàn)個(gè)高質(zhì)量人臉說(shuō)話(huà)視頻的數據集進(jìn)行訓練。相應網(wǎng)絡(luò )學(xué)會(huì )了識別20個(gè)關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可用于在沒(méi)有人工標注的情況下對面部動(dòng)作進(jìn)行建模。這些點(diǎn)對特征(包括眼睛、嘴和鼻子)的位置進(jìn)行編碼。
      然后,它會(huì )從通話(huà)主導者的參照圖像中提取這些關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可以提前發(fā)送給其他的視頻會(huì )議參與者,也可以重新用于之前的會(huì )議。這樣一來(lái),視頻會(huì )議平臺只需發(fā)送演講者面部關(guān)鍵點(diǎn)的移動(dòng)情況數據,無(wú)需將某參與者的大量直播視頻流推送給其他人。
      對于接收者一端,GAN模型會(huì )使用此信息,模擬參照圖像的外觀(guān)以合成一個(gè)視頻。
      通過(guò)僅來(lái)回壓縮及發(fā)送頭部位置和關(guān)鍵點(diǎn),而不是完整的視頻流,此技術(shù)將視頻會(huì )議所需的帶寬降低10倍,從而提供更流暢的用戶(hù)體驗。該模型可以進(jìn)行調整,傳輸不同數量的關(guān)鍵點(diǎn),以實(shí)現在不影響視覺(jué)質(zhì)量的條件下,適應不同的帶寬環(huán)境。
      此外,還可以自由調整所生成的人臉說(shuō)話(huà)視頻的視角,可以從側邊輪廓或筆直角度,也可以從較低或較高的攝像頭角度來(lái)顯示用戶(hù)。處理靜態(tài)圖像的照片編輯者也可以使用此功能。
      NVIDIA研究人員發(fā)現,無(wú)論是參照圖像和視頻來(lái)自同一個(gè)人,還是AI負責將某個(gè)人的動(dòng)作轉移到另一個(gè)人的參照圖像,Vid2Vid Cameo均能生成更逼真、更清晰的結果,優(yōu)于先進(jìn)的模型。
      后一項功能可將演講者的面部動(dòng)作,應用于視頻會(huì )議中的數字頭像動(dòng)畫(huà),甚至可以應用于制作視頻游戲或卡通角色的逼真形象和動(dòng)作。
      結語(yǔ)
      人工智能技術(shù)在便利人們生活和工作方面正在發(fā)揮越來(lái)越重要的作用,而Vid2Vid Cameo借助NVIDI強大的AI能力,讓視頻會(huì )議的體驗更棒,乃至在專(zhuān)業(yè)的圖形和視頻制造中有著(zhù)巨大的想象空間。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 萝北县| 吉木萨尔县| 海晏县| 定陶县| 兰考县| 武威市| 栾川县| 乌拉特前旗| 叶城县| 扎赉特旗| 临夏市| 巴塘县| 禹州市| 盐池县| 连城县| 东乡| 恩施市| 延庆县| 彭泽县| 涟源市| 绿春县| 易门县| 盐源县| 武定县| 邹城市| 铜陵市| 葫芦岛市| 普陀区| 博客| 双柏县| 连云港市| 汾西县| 聂荣县| 余庆县| 嵊州市| 喜德县| 融水| 连云港市| 洪湖市| 麻江县| 定边县| http://444 http://444 http://444 http://444 http://444 http://444