• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    2021 技術(shù)展望 | 實(shí)時(shí)互動(dòng)場(chǎng)景下,音頻的技術(shù)變遷與機遇

    2021-03-25 09:05:35   作者:   來(lái)源:聲網(wǎng)Agora   評論:0  點(diǎn)擊:


      線(xiàn)上會(huì )議、在線(xiàn)教育、電商直播等多個(gè)場(chǎng)景的興起,也使得實(shí)時(shí)互動(dòng)技術(shù)從幕后走到臺前,得到了更多人的關(guān)注。編解碼、網(wǎng)絡(luò )傳輸、計算機視覺(jué)等 RTE 相關(guān)的一系列技術(shù)也正煥發(fā)出更強的生命力。2021 年,在深度學(xué)習、5G 等技術(shù)的加持下,RTE 會(huì )進(jìn)一步催生哪些可能?
      聲網(wǎng)Agora 開(kāi)發(fā)者社區聯(lián)合 InfoQ 共同策劃,邀請了聲網(wǎng)Agora 開(kāi)發(fā)者社區中的多位技術(shù)專(zhuān)家,從視頻傳輸、計算機視覺(jué)、編解碼標準發(fā)展、WebRTC、機器學(xué)習、音頻技術(shù)等角度,共同撰寫(xiě)「2021 實(shí)時(shí)互動(dòng)技術(shù)展望系列」,一窺技術(shù)新趨勢。本文源于對聲網(wǎng)Agora 音頻體驗與工程總監陳若非的采訪(fǎng)。本系列內容由聲網(wǎng) Agora 開(kāi)發(fā)者社區 與 InfoQ 聯(lián)合策劃,并由 InfoQ 審校,首發(fā)于 InfoQ。
      音頻技術(shù)中有很多細節會(huì )影響到實(shí)時(shí)互動(dòng)的體驗。隨著(zhù)技術(shù)和應用場(chǎng)景的變化,音頻也正在與更多的學(xué)科、技術(shù)結合。在實(shí)時(shí)互動(dòng)場(chǎng)景下,哪些因素會(huì )影響音頻的體驗?相比于視頻技術(shù),音頻技術(shù)是否發(fā)展較慢?面向 RTC 場(chǎng)景,音頻技術(shù)又需要作出哪些改變?……為了解答這些問(wèn)題,我們采訪(fǎng)了聲網(wǎng) Agora 音頻體驗與工程總監陳若非,請他來(lái)聊一聊在實(shí)時(shí)互動(dòng)場(chǎng)景下音頻技術(shù)的變遷與機遇。
      Q:相對于研究網(wǎng)絡(luò )架構、大前端等方面的工程師來(lái)講,研究音頻的工程師比較少。具體來(lái)講,音頻工程師都會(huì )研究哪些相關(guān)技術(shù)?
      陳若非:聲音是信息和情感傳遞的載體,所以音頻相關(guān)的研究基本會(huì )圍繞如何讓信息和情感更好的被傳遞和感知理解展開(kāi)的。音頻領(lǐng)域相對專(zhuān)業(yè)細分,但是我們細挖一下就會(huì )發(fā)現音頻相關(guān)的研究方向其實(shí)很多,涉及到的交叉學(xué)科也很廣。從交互對象來(lái)說(shuō)我們可以分為兩類(lèi):人機交互的音頻和人人交互的音頻。從交互的實(shí)時(shí)性來(lái)分,又可以分成實(shí)時(shí)的交互和非實(shí)時(shí)的交互。人機交互主要研究如何讓機器更好的理解聲音和生成聲音,通過(guò) ASR、MIR、TTS 等技術(shù)來(lái)實(shí)現人類(lèi)希望機器完成的任務(wù)。人人交互的部分更多和人的感知系統關(guān)聯(lián),其優(yōu)化目標會(huì )圍繞如何讓人更好的感知音頻來(lái)展開(kāi)。實(shí)時(shí)的人人音頻交互又在此基礎上提出了更多的約束條件,優(yōu)化需要用更低的延時(shí)、更小的計算量和因果系統下展開(kāi)。我所在的聲網(wǎng)就主要聚焦于實(shí)時(shí)互動(dòng)音頻領(lǐng)域的研究,所以我們會(huì )從采集播放、編解碼、前后處理、傳輸的全鏈路去研究如何在盡可能低的延時(shí)和計算量下提供更好的音頻互動(dòng)體驗。
      Q:聊技術(shù)變遷之前,首先梳理一下概念,在實(shí)時(shí)互動(dòng)的場(chǎng)景下,哪些因素會(huì )影響音頻的體驗?
      陳若非:實(shí)時(shí)互動(dòng)音頻是端到端,嘴到耳的體驗,所以全鏈路上所有的組成部分都有可能影響音頻體驗。我們可以從采、播、濾、壓、傳五個(gè)方面去分解技術(shù)對音頻體驗的影響。首先說(shuō)采集,不同麥克風(fēng)的聲學(xué)屬性差異就對音頻體驗有決定性的影響,從拾音的距離,方向性到精度。被拾取的聲音信號經(jīng)過(guò)模數轉換,信號采樣也會(huì )造成聲音的損失,采樣率越高聲音的細節就會(huì )保留的更好。所以一個(gè)高質(zhì)量的麥克風(fēng)會(huì )從源頭上提供更好的音頻源。類(lèi)似的,一個(gè)高質(zhì)量的播放設備可以更好的保留更多聲音細節。然后前后處理是音頻鏈路上非常重要的一環(huán),大家常聽(tīng)到的 3A 技術(shù)都屬于這個(gè)范疇,前后處理對原始采集的信號或者即將要播放的信號做二次處理,來(lái)濾除其中的干擾信號,比如回聲、噪音、雜音、嘯叫等,同時(shí)對目標的音頻做音量和聽(tīng)感上的增強。另外在一些音效玩法里,我們也會(huì )通過(guò)對信號的處理實(shí)現變聲、美聲等特定聲音效果。再說(shuō)下編解碼和傳輸,這兩者是強耦合的。原理上編碼的采樣率和碼率越高,聲音的保真度就更好,聽(tīng)端的體驗也更好。但現實(shí)中網(wǎng)絡(luò )的帶寬是有限制的,還會(huì )經(jīng)常出現丟包抖動(dòng)等不利情況。好的編解碼算法可以通過(guò)對聲學(xué)模型和信息冗余的深入理解,在相對低的碼率下實(shí)現高品質(zhì)的聲音保留,從而保證在各種弱網(wǎng)情況下的穩定表現。同時(shí)我們也需要通過(guò)開(kāi)發(fā)信源信道的弱網(wǎng)對抗技術(shù),在保證低延時(shí)的基礎上,減少丟包抖動(dòng)帶來(lái)的聽(tīng)感影響。
      Q:行業(yè)中有種看法,認為音頻技術(shù)相對于視頻技術(shù),似乎發(fā)展會(huì )稍慢一些?你怎么看待目前音頻技術(shù)的發(fā)展?
      陳若非:技術(shù)的進(jìn)步都是需求推動(dòng)的。電話(huà)時(shí)代的音頻技術(shù)曾經(jīng)經(jīng)歷火熱的發(fā)展,一些經(jīng)典理論如線(xiàn)性預測、自適應濾波,很好的解決了一些基礎可用的問(wèn)題,很多技術(shù)到今天還在被沿用。近幾十年 VOIP 的技術(shù)也得到了長(cháng)足的發(fā)展,我們今天看到 VOIP 的分鐘數能在通信領(lǐng)域占據越來(lái)越大的份額,背后也離不開(kāi)音頻研究人員長(cháng)期的扎實(shí)工作和持續進(jìn)步。音頻需要較高的技術(shù)門(mén)檻,全鏈路的木桶效應明顯,設備耦合重碎片化嚴重,改進(jìn)主觀(guān)不易被感知,這些因素都決定了音頻想要出成果需要坐的住冷板凳,需要長(cháng)期主義的堅持。
      近些年 AI 技術(shù)的興起給音頻注入了新的活力,也給很多長(cháng)時(shí)間不好解決的問(wèn)題提供了新的思路。人機語(yǔ)音交互成為了一個(gè)音頻領(lǐng)域新的熱點(diǎn),相關(guān)的技術(shù)也蓬勃發(fā)展,目前在識別、合成等領(lǐng)域都取得了長(cháng)足的進(jìn)步。而在最近的幾年,也看到了不少 AI 技術(shù)和 RTC 領(lǐng)域結合的實(shí)踐成果,讓人看到了進(jìn)一步提升音頻體驗的巨大空間。從外部環(huán)境來(lái)看,在看膩了千人一面的直播后,越來(lái)越多的人開(kāi)始喜歡心理包袱更小,想象空間更大的音頻社交,近期的行業(yè)里也開(kāi)始出現新的浪潮。相信在這種內外因的結合下,會(huì )有更多的人開(kāi)始研究實(shí)時(shí)互動(dòng)音頻的體驗,也非常期待這個(gè)行業(yè)會(huì )給大家帶來(lái)不一樣的新體驗。
      Q:從實(shí)際來(lái)看,目前音頻在實(shí)時(shí)領(lǐng)域還存在哪些技術(shù)挑戰?
      陳若非:實(shí)時(shí)互動(dòng)音頻領(lǐng)域還有很多技術(shù)挑戰需要我們的攻克。我這里提兩個(gè)大點(diǎn)。第一,碎片化。傳統的手機廠(chǎng)商是一臺臺調試算法和逐一通過(guò)聲學(xué)測試出廠(chǎng)的。如果我們要在不同設備、環(huán)境、網(wǎng)絡(luò )條件下提供一致性的高質(zhì)量音頻體驗,我們就需要尋找新的突破。在接下來(lái)萬(wàn)物互聯(lián)的時(shí)代,這種需求會(huì )愈加強烈,而這方面技術(shù)的突破會(huì )帶來(lái)巨大的價(jià)值。第二,主觀(guān)性。音頻體驗是一個(gè)非常主觀(guān)的存在,每個(gè)人的感知差異和喜好也迥異。我們需要找到更好的方法來(lái)匹配這種個(gè)性化的喜好和提供更好的量化評價(jià)體系。
      Q:基于你對業(yè)界、學(xué)界的觀(guān)察,你認為音頻技術(shù)面向 RTC 場(chǎng)景,接下來(lái)需要作出哪些改變?(如算法、技術(shù)的結合等)
      陳若非:我認為實(shí)時(shí)互動(dòng)音頻的未來(lái)應該有下面三個(gè)部分。第一,AI 和信號處理的深度融合。經(jīng)典的信號處理和聲學(xué)模型已經(jīng)能幫我們解決很多問(wèn)題,當然也不少解決不好的問(wèn)題。在 AI 的有效融合下,可以有效的補充傳統算法的不足,在合理的代價(jià)下更好的解決我們的問(wèn)題,而非簡(jiǎn)單視 AI 為靈丹妙藥包治百病。第二,符合時(shí)代的評價(jià)標準。目前很多音頻標準是給通訊設計的,真正如聚一堂的互動(dòng)體驗需要對應的評價(jià)標準,如何更好的評價(jià)互動(dòng)性,沉浸感是我們需要去探索的地方。第三,真正的沉浸感和伴隨感。人們開(kāi)始不滿(mǎn)足于單純的信息交互,進(jìn)一步的追求面對面的互動(dòng)體驗和情感伴隨,而隨著(zhù)網(wǎng)絡(luò )和設備條件的進(jìn)一步成熟,這種未來(lái)也成為可能。音頻全鏈路都需要升級,從聲場(chǎng)的采集到還原,甚至增強現實(shí),來(lái)創(chuàng )造出真正沉浸式伴隨的體驗,這也會(huì )將會(huì )是一條漫長(cháng)的探索之路。我們在聲網(wǎng)一直致力于探索這些長(cháng)年存在的行業(yè)難題,也歡迎各路有想法有追求的朋友聯(lián)系我,共同交流探索,共同敲開(kāi)未來(lái)音頻之門(mén)。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 东安县| 丹凤县| 屏东县| 红河县| 涿州市| 虎林市| 巴中市| 肇州县| 泸溪县| 长阳| 宜阳县| 灵石县| 鄂托克旗| 肇庆市| 循化| 江永县| 改则县| 吕梁市| 岢岚县| 城步| 伊宁县| 崇文区| 大同县| 乌兰察布市| 乡城县| 平原县| 新蔡县| 长葛市| 江西省| 儋州市| 樟树市| 抚宁县| 襄城县| 扎兰屯市| 乌兰浩特市| 革吉县| 大港区| 海兴县| 股票| 视频| 和平县| http://444 http://444 http://444 http://444 http://444 http://444