
GTC 2020 秋季站 - 2020年10月5日– NVIDIA今天宣布推出了NVIDIA Maxine平臺,該平臺為開(kāi)發(fā)者提供了一套基于云的、GPU加速AI視頻會(huì )議軟件,以提升流視頻質(zhì)量。當前,流視頻是互聯(lián)網(wǎng)上首屈一指的流量來(lái)源。
NVIDIA Maxine是云原生的流視頻AI平臺,能讓服務(wù)提供商每天對大約3000多萬(wàn)次的網(wǎng)絡(luò )會(huì )議提供全新AI功能。視頻會(huì )議服務(wù)提供商在云端運行基于NVIDIA GPU的平臺,可以為用戶(hù)提供包括凝視校正、超分辨率、噪聲消除、人臉補光等全新AI效果。
由于數據處理過(guò)程發(fā)生在在云端,而非本地設備,因此,終端用戶(hù)無(wú)需任何專(zhuān)用硬件就可以盡享這些新功能。
NVIDIA副總裁兼加速計算業(yè)務(wù)總經(jīng)理Ian Buck表示:“視頻會(huì )議現已經(jīng)成為人們日常生活的一部分,能夠幫助數百萬(wàn)人工作、學(xué)習、娛樂(lè ),甚至就醫。NVIDIA Maxine集成了我們最先進(jìn)的視頻、音頻和對話(huà)式AI功能,給那些幫助我們保持聯(lián)絡(luò )的視頻會(huì )議平臺帶來(lái)效率突破。”
AI效率突破,降低帶寬需求,改進(jìn)通話(huà)質(zhì)量
Maxine平臺大幅降低了視頻通話(huà)所需帶寬。該AI軟件無(wú)需流處理全部屏幕像素,而是分析通話(huà)中每個(gè)人的關(guān)鍵面部特征,然后在通話(huà)另一邊的視頻中智能地重新激活人臉。這使得流視頻可通過(guò)更少的數據在互聯(lián)網(wǎng)上進(jìn)行傳輸。
使用這種在NVIDIA GPU上運行的基于A(yíng)I的新視頻壓縮技術(shù),開(kāi)發(fā)者可將視頻帶寬消耗減少到H.264流視頻壓縮標準要求的十分之一。在降低供應商成本的同時(shí),為終端用戶(hù)提供了更流暢的視頻會(huì )議體驗,使用戶(hù)能夠享受更多AI服務(wù),并減少電腦、平板和手機上的數據流。
AI功能提升了視頻會(huì )議體驗
NVIDIA研究人員在Maxine中實(shí)現新的突破,包括了讓視頻會(huì )議的感覺(jué)更像面對面的交談。視頻會(huì )議服務(wù)提供商將能夠利用NVIDIA在GAN(對抗式生成網(wǎng)絡(luò ))上的研究成果,提供各種各樣的新功能。
例如,人臉校正功能可以自動(dòng)調整人臉,使人們在通話(huà)中看起來(lái)是面對面的。而凝視校正功能可模擬屏幕上的眼神交流,即使攝像頭未與用戶(hù)的屏幕對齊也能輕松實(shí)現。自今年年初以來(lái),視頻會(huì )議的數量增長(cháng)了十倍,這些功能可以幫助人們將視線(xiàn)落在屏幕中的視頻上,而不必盯著(zhù)攝像頭。
開(kāi)發(fā)者還可以添加一些功能,讓通話(huà)參與者選擇自己的動(dòng)畫(huà)角色,通過(guò)聲音和情緒實(shí)時(shí)地自動(dòng)控制動(dòng)畫(huà)樣式。自動(dòng)幀選項可以讓參與者在即使離開(kāi)屏幕時(shí),依舊保持視頻流緊隨揚聲器。
通過(guò)使用由NVIDIA Jarvis SDK支持的對話(huà)式AI功能,開(kāi)發(fā)者可集成虛擬助手,這些虛擬助手采用最先進(jìn)的AI語(yǔ)言模型進(jìn)行語(yǔ)音識別、語(yǔ)言理解和語(yǔ)音生成。虛擬助手還可以做筆記、設置動(dòng)作項目并通過(guò)類(lèi)似人類(lèi)的聲音回答問(wèn)題。其他的對話(huà)式AI服務(wù),如翻譯、隱藏字幕和轉錄,能幫助確保參與者理解電話(huà)中討論的內容。
云原生架構可節約成本并實(shí)現大規模AI應用
視頻會(huì )議的需求很難預測,數以百計甚至千計的用戶(hù)有可能會(huì )試圖撥入同一場(chǎng)會(huì )議。NVIDIA DeepStream可在云端的NVIDIA GPU上利用Kubernetes容器集群中運行的AI微服務(wù),幫助開(kāi)發(fā)者根據實(shí)時(shí)需求擴展他們的服務(wù)。AI推理能力讓用戶(hù)可同時(shí)運行多種AI功能,且同時(shí)滿(mǎn)足應用程序的時(shí)延要求。
視頻會(huì )議服務(wù)提供商通過(guò)NVIDIA GPU在云端進(jìn)行AI推理應用,可利用Maxine為數十萬(wàn)用戶(hù)提供領(lǐng)先的AI能力。Maxine平臺采用模塊化設計,開(kāi)發(fā)人員可以輕松選擇所需AI功能,并將其集成到視頻會(huì )議解決方案中。
全明星NVIDIA AI開(kāi)發(fā)者工具套件
Maxine平臺集成了多種NVIDIA AI SDK和API。除NVIDIA Jarvis外, Maxine平臺還采用NVIDIA DeepStream高通量音頻和視頻流SDK和NVIDIA TensorRTTM SDK,用于高性能深度學(xué)習推理。
在Maxine平臺上使用的NVIDIA SDK,提供AI音頻、視頻和自然語(yǔ)言功能。這些功能是通過(guò)在全球領(lǐng)先的訓練、推理和數據科學(xué)工作負載平臺NVIDIA DGXTM系統上進(jìn)行了數十萬(wàn)小時(shí)的演練后才開(kāi)發(fā)出來(lái)的。
供貨
開(kāi)發(fā)音頻和視頻應用程序和服務(wù)的計算機視覺(jué)AI開(kāi)發(fā)人員、軟件合伙人、初創(chuàng )企業(yè)和計算機制造商,可申請NVIDIA Maxine平臺的早期試用。