• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    聲網(wǎng)Agora一站式智能語(yǔ)音識別方案:內容審核,快速接入

    2019-08-26 15:28:12   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      視頻直播、語(yǔ)音聊天、音樂(lè )社交,這些與“聲音”有關(guān)的社交場(chǎng)景在近兩年來(lái)越來(lái)越熱,也吸引了很多內容創(chuàng )作者和用戶(hù)。不過(guò),與之相關(guān)的語(yǔ)音內容審核一直是令很多平臺頭痛的問(wèn)題。這也讓那些“每天聽(tīng) 4000 條語(yǔ)音”的聲音鑒黃師上了頭條。而現在,市場(chǎng)上已經(jīng)有一些廠(chǎng)商開(kāi)始提供智能語(yǔ)音鑒黃服務(wù)了,大幅減輕了人工鑒黃的工作量。
      不過(guò),對于社交產(chǎn)品團隊來(lái)講,現有的語(yǔ)音內容審核+實(shí)時(shí)音視頻服務(wù),部署、調試、運維的成本高,而且很多方案對有背景音樂(lè )、噪聲的音頻識別效果差。為了解決這個(gè)問(wèn)題,我們正式推出聲網(wǎng) Agora 一站式智能語(yǔ)音識別方案。
      現有的方案都是如何實(shí)現的呢?
      一般來(lái)講,一個(gè)社交產(chǎn)品需要對接三種廠(chǎng)商:CDN廠(chǎng)商,用來(lái)推流、拉流,實(shí)現普通的直播;RTC 廠(chǎng)商,用來(lái)實(shí)現低延時(shí)的實(shí)時(shí)互動(dòng)直播;內容審核廠(chǎng)商,通過(guò) AI、人工進(jìn)行審核。接入的架構基本如下圖所示,可簡(jiǎn)單概括為三步:
    1. 內容經(jīng)過(guò)轉碼或直接推流至 CDN;
    2. 內容審核廠(chǎng)商從 CDN 拉流,然后進(jìn)行 AI 、人工內容審核;
    3. 完成審核后,傳回給服務(wù)器端。
      圖:傳統的實(shí)時(shí)音視頻內容審核流程
      這種舊方式帶來(lái)的問(wèn)題顯而易見(jiàn)。首先,開(kāi)發(fā)者需要對接三個(gè)廠(chǎng)商,要進(jìn)行多次部署、調試,其中有很多調試的成本與風(fēng)險。而且,當 CDN 出現故障時(shí),需要較長(cháng)時(shí)間來(lái)排查問(wèn)題。另外,在這個(gè)過(guò)程中,開(kāi)發(fā)者還需要支付額外的拉流成本。
      另一方面,目前的方案還需要解決噪聲問(wèn)題。因為音頻社交有很多種場(chǎng)景,比如語(yǔ)音FM、語(yǔ)音聊天室、音樂(lè )社交、娛樂(lè )直播,這些場(chǎng)景常常伴有環(huán)境噪聲和背景音樂(lè ),會(huì )影響現有內容審核方案的識別率。
      聲網(wǎng)Agora 一站式智能語(yǔ)音識別方案
      聲網(wǎng)現已提供業(yè)界獨有的一站式智能語(yǔ)音識別方案。如上圖架構所示,開(kāi)發(fā)者只需要在應用中集成聲網(wǎng) Agora SDK,即可讓音頻在 Agora SD-RTN? 網(wǎng)絡(luò )中實(shí)時(shí)傳輸的過(guò)程中完成語(yǔ)音內容識別與審核。我們在原有的實(shí)時(shí)語(yǔ)音互動(dòng)直播的基礎上,整合了業(yè)界 Top 3 語(yǔ)音識別服務(wù)。同時(shí),基于聲網(wǎng)的 AI 音頻降噪引擎,來(lái)提高音頻質(zhì)量,優(yōu)化語(yǔ)音識別效果。
      語(yǔ)音識別的流程如下圖所示。首先通過(guò)聲網(wǎng)獨家研發(fā)的 AI 音頻降噪引擎消除背景音,優(yōu)化音頻質(zhì)量,讓語(yǔ)音更加清晰。我們在網(wǎng)絡(luò )電臺、語(yǔ)音交友等互聯(lián)網(wǎng)平臺聽(tīng)到的語(yǔ)音音頻通常有兩類(lèi),一類(lèi)是普通的語(yǔ)音,另一類(lèi)是非文字的聲音,如嬌喘和ASMR,后者是不存在任何語(yǔ)義的。所以我們會(huì )通過(guò)不同的模塊來(lái)檢測,將語(yǔ)音轉化為文字通過(guò)內容安全引擎進(jìn)一步過(guò)濾,結合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規則引擎”和“分類(lèi)器”等模塊,過(guò)濾掉音頻中涉政、涉黃(包括嬌喘、ASMR)、暴恐、辱罵等違規內容。人工審核團隊可以通過(guò)Web端后臺,對機器審核的結果進(jìn)行抽查和復審,不斷優(yōu)化機器審核的準確率。這一過(guò)程可以大幅降人工審核成本,提升效率。
      目前該解決方案可檢測出廣告、涉黃、涉政、暴恐、謾罵等違規內容,適用于視頻直播、語(yǔ)音聊天室、娛樂(lè )直播、語(yǔ)音 FM、音樂(lè )社交等實(shí)時(shí)音視頻社交互動(dòng)場(chǎng)景。
      聲網(wǎng)Agora一站式智能語(yǔ)音識別方案優(yōu)勢包括:
      1、調用 RESTful API,一站式接入
      聲網(wǎng) Agora 目前提供了實(shí)時(shí)音頻通話(huà) SDK。在應用中集成 Agora SDK 后,開(kāi)發(fā)者可以通過(guò)調用 RESTful API,即可為自己的應用增加語(yǔ)音內容審核服務(wù)。相比傳統內容審核方案,聲網(wǎng)方案可以節省開(kāi)發(fā)時(shí)間、服務(wù)器等接入成本。
      2、AI 降噪,識別率更高
      面對語(yǔ)音識別中常見(jiàn)的噪聲、背景音樂(lè )等音質(zhì)問(wèn)題。我們會(huì )通過(guò)聲網(wǎng) AI 音頻降噪引擎對音頻進(jìn)行優(yōu)化,以提升語(yǔ)音的識別率。與此同時(shí),用戶(hù)的語(yǔ)音、音頻體驗也會(huì )得到提升。在今年的 RTC 2019 實(shí)時(shí)互聯(lián)網(wǎng)大會(huì )上,我們還將進(jìn)一步分享 AI 音頻降噪背后的技術(shù)實(shí)踐,敬請期待。
      3、語(yǔ)音交互低延時(shí)
      聲網(wǎng) SDK 實(shí)現了全球端到端76ms 的實(shí)時(shí)音視頻低延時(shí)傳輸。聲網(wǎng)Agora SD-RTN? 實(shí)時(shí)通信網(wǎng)絡(luò )采用私有 UDP 協(xié)議進(jìn)行傳輸,基于軟件定義優(yōu)化路由選擇最優(yōu)傳輸路徑,自動(dòng)規避網(wǎng)絡(luò )擁塞和骨干網(wǎng)絡(luò )故障帶來(lái)的影響。在能保證低延時(shí)傳輸的同時(shí),聲網(wǎng)Agora SDK還支持 48kHz 高音質(zhì)語(yǔ)音。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 灌南县| 信宜市| 陆良县| 高陵县| 屏南县| 阳春市| 罗平县| 察雅县| 太谷县| 通河县| 怀来县| 陕西省| 麻江县| 龙川县| 太原市| 乃东县| 白城市| 墨玉县| 洪湖市| 寻甸| 西充县| 黎川县| 喀喇沁旗| 井研县| 锦州市| 东源县| 忻城县| 乌鲁木齐市| 璧山县| 罗城| 固安县| 泰顺县| 重庆市| 武穴市| 遵义市| 噶尔县| 岳普湖县| 曲阳县| 鄂温| 美姑县| 上林县| http://444 http://444 http://444 http://444 http://444 http://444