大家好,我是騰訊天籟實(shí)驗室負責人、資深專(zhuān)家研究員商世東。非常榮幸能夠在LiveVideoStackCon 2021音視頻技術(shù)大會(huì )上海站現場(chǎng)為大家分享,過(guò)去兩年我們通過(guò)騰訊會(huì )議探索音視頻技術(shù)在云會(huì )議場(chǎng)景下的應用所收獲的經(jīng)驗與心得,以及音視頻技術(shù)在騰訊會(huì )議中的使用情況。基于此,我們進(jìn)一步探索音視頻技術(shù)在云會(huì )議場(chǎng)景下的未來(lái)。本次分享將從以下五個(gè)方面展開(kāi):

01騰訊會(huì )議介紹
請允許我在此向大家簡(jiǎn)單介紹一下騰訊會(huì )議——相信絕大多數同學(xué)在日常的工作、學(xué)習過(guò)程當中都已成為騰訊會(huì )議的用戶(hù)。
請允許我在此向大家簡(jiǎn)單介紹一下騰訊會(huì )議——相信絕大多數同學(xué)在日常的工作、學(xué)習過(guò)程當中都已成為騰訊會(huì )議的用戶(hù)。
1.1.騰訊會(huì )議品牌

2019年12月,騰訊會(huì )議1.0正式版發(fā)布。相對于現在的產(chǎn)品,當時(shí)的騰訊會(huì )議功能比較基礎和單一,在使用體驗上也都略顯粗糙;2020年年初,隨著(zhù)疫情的爆發(fā)催生線(xiàn)上會(huì )議需求井噴,短短245天之內騰訊會(huì )議的用戶(hù)就突破了1億,成為國內市場(chǎng)最快超過(guò)1億用戶(hù)的視頻會(huì )議應用;并且在過(guò)去一年,騰訊會(huì )議多次榮登App Store免費榜的榜首;2020年11月,騰訊會(huì )議在疫情爆發(fā)期間協(xié)助各個(gè)企事業(yè)單位、學(xué)校復工復產(chǎn)、遠程協(xié)助,為數字經(jīng)濟發(fā)展做出了卓越的貢獻;并于2020年在浙江烏鎮舉辦的世界互聯(lián)網(wǎng)大會(huì )上榮獲“領(lǐng)先科技成果”大獎,這也是世界互聯(lián)網(wǎng)大會(huì )自2014年舉辦以來(lái),首次獲得該獎項的視頻會(huì )議產(chǎn)品。
根據北京大學(xué)互聯(lián)網(wǎng)發(fā)展研究中心發(fā)布的研究報告《在線(xiàn)會(huì )議社會(huì )價(jià)值與未來(lái)發(fā)展報告》,騰訊會(huì )議在短短5個(gè)月的時(shí)間直接節約社會(huì )成本達714億元,在經(jīng)濟、技術(shù)、文化等多個(gè)層面為社會(huì )做出了卓越貢獻。
1.2.依托騰訊云,騰訊會(huì )議助力企業(yè)協(xié)作轉型

騰訊會(huì )議從速度、跨度、深度、廣度等多個(gè)維度上,有效助力企業(yè)數字化協(xié)作轉型:
- 在速度上,騰訊會(huì )議提供了隨時(shí)隨地接入的視頻會(huì )議體驗;
- 在跨度上,騰訊會(huì )議為眾多企業(yè)在大規模、跨企業(yè)、跨地域交流方面提供關(guān)鍵技術(shù)與產(chǎn)品支撐;
- 在深度上,騰訊會(huì )議提供的眾多功能,有效為各大企業(yè)平臺提供一個(gè)可信賴(lài)的沉浸式協(xié)作環(huán)境;
在廣度上,騰訊會(huì )議與業(yè)界眾多硬件和APP實(shí)現了集成,高效連接個(gè)人、會(huì )議與生態(tài)。
1.3.騰訊會(huì )議產(chǎn)品全景圖

騰訊會(huì )議為全行業(yè)提供在線(xiàn)會(huì )議賦能,深入政府、醫療、教育、金融、制藥等行業(yè),為諸多的企事業(yè)單位與組織機構提供了遠程協(xié)作和視頻會(huì )議服務(wù)。
在平臺種類(lèi)上,我們也可以看到,騰訊會(huì )議目前覆蓋了大家日常使用的8個(gè)主流平臺,包括PC、移動(dòng)、會(huì )議室以及騰訊會(huì )議的硬件終端產(chǎn)品——騰訊會(huì )議Rooms。在全場(chǎng)景平臺架構上的服務(wù)除了提供視頻會(huì )議和音頻會(huì )議之外,還提供了協(xié)作會(huì )議和會(huì )議直播。而在底層能力平臺方面,除了使用最多的音視頻引擎,還提供了IM、在線(xiàn)文檔、會(huì )議室連接器、智能管理等平臺;除此之外,騰訊會(huì )議還提供了面對所有開(kāi)發(fā)者的API服務(wù),開(kāi)發(fā)者可以在各自領(lǐng)域和應用硬件中集成騰訊會(huì )議的多項能力。
1.4.常見(jiàn)應用場(chǎng)景

圖中列舉的諸多場(chǎng)景如遠程培訓、遠程會(huì )商等,在騰訊會(huì )議上也都被廣泛使用,因為這些相關(guān)場(chǎng)景都涉及到遠程協(xié)作溝通。
以上是對騰訊會(huì )議的簡(jiǎn)單介紹,希望能夠幫助大家對騰訊會(huì )議有進(jìn)一步了解。下一步我將具體分享騰訊會(huì )議音視頻所具有的黑科技。
02騰訊會(huì )議的音視頻黑科技
提及騰訊會(huì )議的音視頻能力,我們首先需要知悉的是騰訊會(huì )議音視頻的建設目標。
騰訊會(huì )議自啟動(dòng)以來(lái),我們一直圍繞著(zhù)更清晰、更流暢、更實(shí)時(shí)互動(dòng)的目標進(jìn)行持續的能力建設,不斷提高遠程線(xiàn)上會(huì )議參與感和交流感。
音視頻技術(shù)泛泛而言分為三個(gè)領(lǐng)域:音頻處理、視頻處理、弱網(wǎng)抗性增強。今天由于時(shí)間限制,不太可能和大家全面回顧這三個(gè)領(lǐng)域的相關(guān)技術(shù),還是和大家分享下三個(gè)領(lǐng)域我們經(jīng)歷的一些有趣故事吧。
2.1.關(guān)于音頻降噪的故事

我們內部統計到,在所有的線(xiàn)上的會(huì )議中,純語(yǔ)音會(huì )議占到會(huì )議總數的80%左右,由于純語(yǔ)音會(huì )議不開(kāi)攝像頭和屏幕分享,或者屏幕分享開(kāi)的時(shí)間在整個(gè)會(huì )議中處于很小的比例。所以語(yǔ)音會(huì )議的質(zhì)量、流暢、純凈、智能互動(dòng)對于線(xiàn)上會(huì )議的體驗至關(guān)重要。
在現實(shí)生活當中,由于開(kāi)會(huì )所處的現實(shí)環(huán)境非常復雜,包括各種嘈雜的環(huán)境。為了提供良好的語(yǔ)音會(huì )議體驗,卓越的音頻降噪技術(shù)是不可或缺的。
從騰訊會(huì )議開(kāi)發(fā)伊始,音頻方案便沿著(zhù)經(jīng)典信號處理和深度學(xué)習相結合的技術(shù)路徑進(jìn)行,我們運用了獨特的大數據訓練模型覆蓋多種常見(jiàn)的平穩噪聲和非平穩噪聲類(lèi)型。不單是基于經(jīng)典的信號處理模型,而是監測并消除了很多日常突發(fā)性的非平穩噪聲。
騰訊會(huì )議支持多平臺終端,因此我們的模型也是低復雜度輕量級,保證能夠在多個(gè)終端平臺落地。在具體實(shí)現上,從技術(shù)細節角度來(lái)講,騰訊會(huì )議的音頻降噪算法結合了人體的聲帶與聲道的發(fā)聲模型以及人耳的聽(tīng)覺(jué)模型,基于多種神經(jīng)網(wǎng)絡(luò )并融合多種損失函數和訓練策略,最終在語(yǔ)音的保真度和自然度以及噪聲抑制上取得了一個(gè)良好的權衡。但這個(gè)挑戰也是巨大的,尤其是在音頻降噪上線(xiàn)以后,也給我們意想不到的挑戰。
下面給大家分享一個(gè)有趣的故事。

降噪的故事
上圖兩個(gè)波形圖所展現的分別是掌聲與敲擊鍵盤(pán)的聲音,可以看到二者波形非常相似。2020年初疫情來(lái)臨時(shí),許多會(huì )議由線(xiàn)下轉為線(xiàn)上,當時(shí)騰訊會(huì )議所采取的降噪算法還處于灰度測試階段。我們收到的一個(gè)比較尷尬的反饋是,公司領(lǐng)導使用騰訊會(huì )議開(kāi)會(huì ),講到最后時(shí)刻領(lǐng)導習慣性停下來(lái)等待大家鼓掌,此時(shí)由于降噪算法的強悍降噪效果,領(lǐng)導能從畫(huà)面中看到大家鼓掌,但耳朵中卻聽(tīng)不到任何掌聲,這是由于當時(shí)不夠成熟的降噪算法將掌聲也作為一種背景噪音過(guò)濾掉了;此時(shí)如果沒(méi)有開(kāi)視頻畫(huà)面而只是運用語(yǔ)音開(kāi)會(huì )的話(huà),則領(lǐng)導收不到任何反饋,這樣的體驗無(wú)疑是不自然的。
我們知道算法對于模型來(lái)說(shuō)至關(guān)重要。騰訊會(huì )議針對非突發(fā)噪聲的消除采取了多種模型,當時(shí)所采取的模型并不需要區分鍵盤(pán)敲擊聲與掌聲。如果仔細觀(guān)察鍵盤(pán)敲擊聲與掌聲的波形圖我們不難發(fā)現,掌聲波形存在細微的差別,而敲擊不同鍵盤(pán)所呈現的聲音也會(huì )有一定差別,但人耳對二者很難區分。
這無(wú)疑對我們實(shí)現噪聲消除模型帶來(lái)很大挑戰。一方面我們希望噪聲消除模型具有很好的泛化性能,不能只針對訓練的數據做有效處理;但在一些特殊場(chǎng)景下,模型可能存在失效的情況,錯誤過(guò)濾其他噪聲。意識到該問(wèn)題后,我們對降噪模型進(jìn)行了創(chuàng )新,也就是在模型中加入了一個(gè)獨特的可融合幀級信息與語(yǔ)音片斷信息的多級別模型,而且還可以多尺度地獨立提取不同頻帶域特征,區分掌聲與非掌聲的局部特征信息,再對這些特征進(jìn)行融合從而達到識別全局不同類(lèi)型噪聲的效果。以后我們通過(guò)騰訊會(huì )議與領(lǐng)導開(kāi)會(huì ),再也不需要擔心領(lǐng)導因為聽(tīng)不到掌聲而尷尬了。

說(shuō)完噪聲我們再來(lái)說(shuō)語(yǔ)音,因為語(yǔ)音增強和噪聲消除是相輔相成的,但語(yǔ)音和噪聲有很大差別。上圖展示的一段逐漸衰弱的語(yǔ)音波形圖,可以看到語(yǔ)音波形圖具有一定的諧波特征。但語(yǔ)音在距離遠一些時(shí)非常容易淹沒(méi)在背景雜音里,這對語(yǔ)音增強而言,如何將語(yǔ)音從背景噪聲中分離并增強顯得尤為重要。
剛開(kāi)始的時(shí)候騰訊會(huì )議主要在手機、PC等平臺部署,不會(huì )存在太多人距離麥克風(fēng)較遠的情況;但當大家帶上耳機或者使用電腦在空曠會(huì )議室開(kāi)會(huì )時(shí),尤其是當多人在會(huì )議室里開(kāi)會(huì ),有些成員距離麥克風(fēng)較近,有些則距離麥克風(fēng)非常遠,這就導致一些遠處的人聲會(huì )被當成噪聲而消除。為了避免這樣的情況發(fā)生,我們對模型做出進(jìn)一步改進(jìn),優(yōu)化了模型以大幅度改善遠處較弱語(yǔ)音的增強與降噪效果,在降低噪音的同時(shí)保留遠處人聲的清晰度。

音頻降噪不僅用于PC、手機等終端設備上,一些商業(yè)會(huì )議場(chǎng)景,尤其是部署在會(huì )議室的視頻會(huì )議產(chǎn)品,當我們在與合作伙伴探討最佳產(chǎn)品形態(tài)的時(shí)候發(fā)現,市場(chǎng)上的大型會(huì )議室設備在遠程拾音、降噪、雙講、噪聲消除方面往往無(wú)法滿(mǎn)足行業(yè)需求,體驗與實(shí)用性都不佳,為此騰訊會(huì )議技術(shù)團隊專(zhuān)門(mén)進(jìn)行了技術(shù)攻關(guān)。
得益于騰訊會(huì )議天籟音頻團隊的努力,我們最近提供了一套性能優(yōu)異的會(huì )議室遠場(chǎng)拾音解決方案:我們采用了多個(gè)MEMS麥克風(fēng)板并結合音頻處理器,然后通過(guò)攝像頭上方的結構非常方便地集成于在線(xiàn)會(huì )議設備之上,很好地實(shí)現了在參會(huì )者不方便使用電話(huà)或不方便使用擴展麥克風(fēng)的場(chǎng)景中對遠距離人聲的拾音問(wèn)題。下面請大家體驗下我們模組強悍的超遠距離拾音能力。

此外,該模組除了解決遠距離人聲拾音的同時(shí),也實(shí)現了更為智能的噪聲消除效果。例如針對敲擊鍵盤(pán)、放水杯,咳嗽聲等突發(fā)性噪聲都具有良好消除性能。除了噪聲消除,雙講是視頻會(huì )議中一個(gè)常見(jiàn)的現象,同時(shí)也是一項挑戰。市場(chǎng)中大屏幕主流產(chǎn)品在處理雙講場(chǎng)景時(shí)往往會(huì )出現很明顯的失真現象或者雙講剪切,這就導致一些交流較為頻繁的會(huì )議,往往會(huì )影響語(yǔ)音的清晰程度。而使用天籟團隊所開(kāi)發(fā)的模組,雙講場(chǎng)景即便是多人同時(shí)講話(huà)依然能夠清晰的聽(tīng)見(jiàn)每個(gè)人所說(shuō)的大部分內容。
2.2.不止于超高清編解碼,更有AI視覺(jué)加持

除了音頻,騰訊會(huì )議領(lǐng)先的視頻技術(shù)也絕不僅僅是一個(gè)全高清的視頻體驗。除了高清H.264編解碼、HEVC等之外,為了改善視頻會(huì )議的參與感,騰訊會(huì )議還做了很多與視覺(jué)AI相關(guān)的工作。如虛擬背景,以及去年疫情開(kāi)始很多學(xué)生使用時(shí)很喜歡的美顏功能。
騰訊會(huì )議最近還收到來(lái)自一些用戶(hù)的反饋,他們打開(kāi)攝像頭的時(shí)候總感覺(jué)不自然, 因為日常交流的時(shí)候大家都會(huì )有眼神接觸,但在視頻會(huì )議的時(shí)候,因為攝像頭和屏幕與人眼之間的夾角,對方看到人的時(shí)候眼睛是向下的;如果你非常激情且投入地參與會(huì )議,但是無(wú)法于其他參會(huì )人有眼神接觸,這樣的體驗不會(huì )很好。于是我們決定做一個(gè)眼神接觸的功能,也就是將眼神偏離的向下的角度給糾正過(guò)來(lái);但實(shí)際上做眼神接觸的時(shí)候,需要調整的不僅僅是眼神,還有眼睛上方的睫毛,下方的眼皮區域等等都需要做出相應的改善,才能讓面部表情看起來(lái)自然。更具有挑戰性的是一些戴眼鏡的情況,眼鏡會(huì )有各種各樣的形狀,更會(huì )有反光,這都對建立人臉3D模型以及人臉3D模型生成的數據提出了很大的挑戰。我們在開(kāi)發(fā)這個(gè)功能采集了數千人的人眼,并且運用人臉3D模型來(lái)生成總計超過(guò)百萬(wàn)張的人眼數據。
當該功能上線(xiàn)后,大多數客戶(hù)反映都很正面,但我們也收到了一些意料之外的反饋。很多老師和學(xué)生反饋,原來(lái)上課的時(shí)候老師可以看到學(xué)生是否在專(zhuān)注的聽(tīng)講,結果現在老師發(fā)現大家都盯著(zhù)老師看,一堂課上下來(lái)學(xué)生都非常的專(zhuān)注,老師就覺(jué)得5分鐘、10分鐘還行,一堂課下來(lái)40分鐘這么多以前很調皮的學(xué)生現在如此專(zhuān)注就不太正常,下來(lái)一打聽(tīng),原來(lái)是學(xué)生把眼神接觸功能都打開(kāi)了。我們收到這樣的反饋以后,也對模型的改善程度重新做了一些調整,當眼神偏離幅度過(guò)大的時(shí)候,系統不再做眼神糾正了。
2.3.不斷挑戰“下限”的弱網(wǎng)抗性

因為騰訊會(huì )議是在線(xiàn)會(huì )議,是基于IP網(wǎng)絡(luò )的。IP網(wǎng)是沒(méi)有QoS保證的,這點(diǎn)和PSTN網(wǎng)絡(luò )不一樣。所以保證QoS,保證音視頻的流暢性是騰訊會(huì )議網(wǎng)絡(luò )組孜孜不倦的追求目標——如何保證騰訊會(huì )議在弱網(wǎng)特別是一些極限網(wǎng)絡(luò )的情況下的弱網(wǎng)抗性,在極限網(wǎng)絡(luò )情況下也很好的保證順利的流暢的會(huì )議體驗。
在眾多的會(huì )議里面都出現過(guò)發(fā)生弱網(wǎng)的條件。深圳北站,處于深圳的北郊,基站的部署不會(huì )像市中心那么密集,有地鐵通到深圳北站,還有深圳北站的高鐵。通過(guò)后臺大數據監控發(fā)現,這個(gè)地區網(wǎng)上經(jīng)常有周期性的大丟包和抖動(dòng)現象發(fā)生,導致會(huì )議的流暢度受到很大影響。我們就去深圳北站那棟大樓做實(shí)測,結果和預想的一樣,由于基站比較少,尤其當地鐵和高鐵同時(shí)進(jìn)戰的時(shí)候,會(huì )導致網(wǎng)絡(luò )流量急劇增加,大量的用戶(hù)連接到基站。并且由于高鐵地鐵導致電磁干擾,基站分配到每個(gè)用戶(hù)可用的帶寬可以低至幾十kbps。50kbps以下要進(jìn)行一個(gè)很好的流暢的語(yǔ)音會(huì )議技術(shù)上是有挑戰的。
發(fā)現了這個(gè)問(wèn)題以后,我們在網(wǎng)絡(luò )層做了很多優(yōu)化和調節,保證在一些極限的條件下——比如地鐵里,或者高鐵交匯的時(shí)候,依然能保證大家在開(kāi)會(huì )的時(shí)候有流暢的體驗。
03細節決定成敗
前面和大家分享了我們的音視頻核心技術(shù)上面長(cháng)期積累的點(diǎn)點(diǎn)滴滴的故事,那有些同學(xué)可能會(huì )問(wèn),我們有什么用的機制能夠系統和全面的發(fā)現這些問(wèn)題,發(fā)現這些badcase,從而進(jìn)行有針對性的用戶(hù)體驗改善的呢?
3.1.在學(xué)術(shù)界和企業(yè)界做算法的差異

在座許多同學(xué)來(lái)自學(xué)術(shù)界。在學(xué)術(shù)界做算法和工業(yè)界還是有很大的差異。學(xué)術(shù)和工業(yè)界做算法的共同點(diǎn)是“知己知彼”,學(xué)術(shù)界更多的是對如何做得更好,針對一個(gè)問(wèn)題提出改善或提升。工業(yè)界除了如何做得更好,還需要知道誰(shuí)做得不好?什么時(shí)候做得不好?哪里做得不好?比如,我們做算法的都知道,其實(shí)攝像頭和麥克風(fēng)對采集是有要求的,如果采集效果不好,在這個(gè)基礎上,本來(lái)采集的語(yǔ)音效果就比較差,后續就很難提升,如果攝像頭本身只有360P,怎么可能做出高清視頻;使情況更糟糕的是深度學(xué)習技術(shù)對數據的依賴(lài)性,比如模型遇到完全沒(méi)碰見(jiàn)過(guò)的數據的時(shí)候,它的表現不可測。這就要求我們能從現網(wǎng)中發(fā)現各個(gè)環(huán)節的缺陷,不管是自研的,還是其他廠(chǎng)商的產(chǎn)品,都要做好音視頻質(zhì)量的實(shí)時(shí)評估和檢測,能發(fā)現其中算法效果的不足和局限性。

此外還要做更進(jìn)一步的細分及指標的定義。很多業(yè)界朋友交流到音視頻本身就是非常主觀(guān)的事物,如何把它細分指標到各個(gè)層面從而提升音視頻體驗是很困難的,但我們必須這樣做。
細節決定成敗,細節取決于什么,細節的第一步就取決于細分指標的定義,尤其對于我們做音視頻的同學(xué)而言都非常頭疼的的主觀(guān)感受指標。
視頻可以細分為視頻編解碼、視頻采集幀率、視頻接收碼率、屏幕分享幀率、屏幕分享接收碼率、視頻幀率的變化,視頻碼率的變化這些指標。
對于音頻更加主觀(guān),處理環(huán)節更加多,同一個(gè)地方不同音頻設備會(huì )互相干擾,攝像頭間干擾可能性會(huì )比較小。所以為了對音頻做完整的監控,我們將音頻指標分為7大類(lèi)包括無(wú)聲、卡頓、漏回聲、降噪、嘯叫、音質(zhì)采集、語(yǔ)音/音樂(lè )內容分類(lèi)。這是初步的7個(gè)種類(lèi),針對每一個(gè)種類(lèi)我們有進(jìn)一步細致的劃分,比如卡頓問(wèn)題是大家很困擾的,以前最早時(shí)卡頓問(wèn)題我們一般認為是網(wǎng)絡(luò )不好。網(wǎng)絡(luò )通過(guò)丟包導致卡頓,經(jīng)過(guò)進(jìn)一步修復分析后,發(fā)現并不是這么簡(jiǎn)單,網(wǎng)絡(luò )丟包,抖動(dòng)導致的卡頓、前處理丟幀、播放側解碼失敗、3A處理導致的音量忽大忽小都會(huì )導致卡頓的發(fā)生。我們如果可以把細分指標都完善定義,那么就可以實(shí)現對會(huì )議音視頻體驗的一個(gè)完整的監控。但是定義出來(lái)的指標是一方面,對騰訊會(huì )議這樣超過(guò)一億用戶(hù)的平臺,很多時(shí)候大盤(pán)的指標對于個(gè)體問(wèn)題并不敏感。
這就帶來(lái)了第二個(gè)問(wèn)題,要進(jìn)行非常嚴格細致的場(chǎng)景分類(lèi)。首先是比較基礎的根據設備類(lèi)型、操作系統、軟件版本進(jìn)行分類(lèi),如這個(gè)版本放音視頻沒(méi)有問(wèn)題,但可能下一個(gè)版本可能就會(huì )出現bug。更難的是根據音視頻的內容所處場(chǎng)景進(jìn)行分類(lèi),大家在開(kāi)視頻會(huì )議時(shí)可能在家里,馬路上,辦公室等不同位置;音頻會(huì )議場(chǎng)景可能更多,家里、地鐵、商場(chǎng)、機場(chǎng)、車(chē)里,場(chǎng)景分類(lèi)做出來(lái)后,這些具體指標在各個(gè)場(chǎng)景中會(huì )有不同的表現,對提高全網(wǎng)的質(zhì)量有非常大的幫助。舉一個(gè)例子,嘯叫一旦發(fā)生,就有災難性的后果,所以我們的算法是一旦發(fā)生嘯叫就閉麥,避免嘯叫場(chǎng)景的發(fā)生。而嘯叫檢測本身帶來(lái)誤警,這是所有檢測都不可避免的,一旦誤警關(guān)麥時(shí),我們會(huì )統計出全網(wǎng)關(guān)麥的指標。但只能看到指標是否有波動(dòng)不知道如何使用是無(wú)效的。這時(shí)候我們就把場(chǎng)景進(jìn)行細分,進(jìn)而發(fā)現車(chē)載場(chǎng)景中,嘯叫指標明顯高于其他場(chǎng)景。大家可以分析一下原因,其實(shí)當汽車(chē)鳴笛的時(shí)候,是很有可能是被誤判為嘯叫的,這只是一個(gè)簡(jiǎn)單的例子,還有其他如回聲、降噪都可以進(jìn)行類(lèi)似的分析進(jìn)而發(fā)現我們算法的局限性和不足。
多維度分析包括跨緯度,不同設備在不同場(chǎng)景中,進(jìn)行交叉維度分析,比如看回聲的指標的時(shí)候,我們會(huì )看在各個(gè)設備,以及各個(gè)聲學(xué)場(chǎng)景下的效果的上報,這樣可以發(fā)現很多有價(jià)值的信息。
04未來(lái)云會(huì )議的音視頻技術(shù)
現在和大家分享未來(lái)云會(huì )議的整個(gè)音視頻技術(shù)。

講到未來(lái)時(shí),我們常常會(huì )思考現在的音視頻會(huì )議存在什么問(wèn)題。
我經(jīng)常開(kāi)玩笑問(wèn)朋友,誰(shuí)最喜歡開(kāi)線(xiàn)上視頻會(huì )議,開(kāi)玩笑地說(shuō)是項目經(jīng)理最喜歡,原因是在開(kāi)項目會(huì )議時(shí),他不需要你說(shuō)太多,只需要回答yes or no,不需要看見(jiàn)你,不需要知道你的心情,不需要知道你在什么樣的環(huán)境,只要關(guān)心項目版本的驗證發(fā)布及生產(chǎn)效率,對他來(lái)說(shuō)有明確的目標及途經(jīng),于是線(xiàn)上會(huì )議于項目經(jīng)理而言是非常好的提升生產(chǎn)力的效果。
誰(shuí)最不喜歡開(kāi)線(xiàn)上視頻會(huì )議呢?我閨女最不喜歡和我開(kāi)視頻會(huì )議,每次最多不超過(guò)3分鐘就跑一邊去玩了、經(jīng)過(guò)調研發(fā)現類(lèi)似的情況還有團隊中的新同學(xué)入職時(shí)、每次有重要的事情和老板談時(shí)、BD第一次見(jiàn)客戶(hù),你想和老板討論績(jì)效考核的時(shí)。這時(shí)候大家往往都會(huì )覺(jué)得視頻會(huì )議無(wú)法充分表達出想要的真正的意圖和目的。
4.1.溝通的目的

在工作中,人們溝通主要由三個(gè)目的。第一個(gè)是生產(chǎn)率;第二個(gè)是當你面對開(kāi)放性命題需要討論、思維碰撞時(shí)候需要創(chuàng )新性的解決方案的時(shí)候;第三是建立和維護人際關(guān)系的溝通。對于第二和第三類(lèi)的溝通,我們現在知道,線(xiàn)上會(huì )議和線(xiàn)下會(huì )議的體驗還是有蠻大的差距。
4.2.溝通的方式

這主要是因為,第二和第三類(lèi)目的下的會(huì )議中的參會(huì )者,表達會(huì )有多種方式:文字語(yǔ)音帶有明確的目的和實(shí)施途徑,但是對于開(kāi)放式的話(huà)題,更加需要的是面部表情及眼神接觸來(lái)達到充分的投入和交互,此外還有情感述求,比如尋求他人認同、支持、還需要將情感述求和實(shí)際開(kāi)會(huì )場(chǎng)景結合起來(lái),比如線(xiàn)下輕松休閑的會(huì )議可以去咖啡館開(kāi),嚴肅的會(huì )議可以去正式的會(huì )議室等等,這樣的訴求目前在線(xiàn)上會(huì )議上都是難以滿(mǎn)足的。
4.3.云會(huì )議的未來(lái)

但是正在蓬勃發(fā)展的VR、AR技術(shù)也許可以彌補音視頻會(huì )議中上述的情景的不足,身體語(yǔ)言,面部表情可以通過(guò)VR/AR技術(shù)來(lái)彌補。它們在實(shí)時(shí)視頻會(huì )議中的一些作用,比如左圖的全息會(huì )議可以確保參會(huì )者的實(shí)時(shí)動(dòng)作出現在全息投影中,彌補實(shí)時(shí)視頻會(huì )議中參會(huì )者面不和身體語(yǔ)言的的缺失,現在使用手機相機即可實(shí)現高質(zhì)量的全息采集。右圖的VR技術(shù),可以使參會(huì )者在會(huì )議中使用一些有意思的掛件、服裝等,更好的構建不同談話(huà)場(chǎng)景,為遠程會(huì )議增添與會(huì )議目的一致的各種環(huán)境等等。
由于時(shí)間限制,以上是我與大家分享的內容,希望對大家有所幫助,謝謝
來(lái)源:LiveVideoStack
來(lái)源:LiveVideoStack