亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

聲網(wǎng)Agora一站式智能語音識別方案：內(nèi)容審核，快速接入

2019-08-26 15:28:12 作者：來源：CTI論壇評論：0 　點擊：

　　視頻直播、語音聊天、音樂社交，這些與“聲音”有關(guān)的社交場景在近兩年來越來越熱，也吸引了很多內(nèi)容創(chuàng)作者和用戶。不過，與之相關(guān)的語音內(nèi)容審核一直是令很多平臺頭痛的問題。這也讓那些“每天聽 4000 條語音”的聲音鑒黃師上了頭條。而現(xiàn)在，市場上已經(jīng)有一些廠商開始提供智能語音鑒黃服務(wù)了，大幅減輕了人工鑒黃的工作量。

　　不過，對于社交產(chǎn)品團隊來講，現(xiàn)有的語音內(nèi)容審核+實時音視頻服務(wù)，部署、調(diào)試、運維的成本高，而且很多方案對有背景音樂、噪聲的音頻識別效果差。為了解決這個問題，我們正式推出聲網(wǎng) Agora 一站式智能語音識別方案。

　　現(xiàn)有的方案都是如何實現(xiàn)的呢？

　　一般來講，一個社交產(chǎn)品需要對接三種廠商：CDN廠商，用來推流、拉流，實現(xiàn)普通的直播；RTC 廠商，用來實現(xiàn)低延時的實時互動直播；內(nèi)容審核廠商，通過 AI、人工進行審核。接入的架構(gòu)基本如下圖所示，可簡單概括為三步：

內(nèi)容經(jīng)過轉(zhuǎn)碼或直接推流至 CDN；
內(nèi)容審核廠商從 CDN 拉流，然后進行 AI 、人工內(nèi)容審核；
完成審核后，傳回給服務(wù)器端。

　　圖：傳統(tǒng)的實時音視頻內(nèi)容審核流程

　　這種舊方式帶來的問題顯而易見。首先，開發(fā)者需要對接三個廠商，要進行多次部署、調(diào)試，其中有很多調(diào)試的成本與風(fēng)險。而且，當 CDN 出現(xiàn)故障時，需要較長時間來排查問題。另外，在這個過程中，開發(fā)者還需要支付額外的拉流成本。

　　另一方面，目前的方案還需要解決噪聲問題。因為音頻社交有很多種場景，比如語音FM、語音聊天室、音樂社交、娛樂直播，這些場景常常伴有環(huán)境噪聲和背景音樂，會影響現(xiàn)有內(nèi)容審核方案的識別率。

　　聲網(wǎng)Agora 一站式智能語音識別方案

　　聲網(wǎng)現(xiàn)已提供業(yè)界獨有的一站式智能語音識別方案。如上圖架構(gòu)所示，開發(fā)者只需要在應(yīng)用中集成聲網(wǎng) Agora SDK，即可讓音頻在 Agora SD-RTN? 網(wǎng)絡(luò)中實時傳輸?shù)倪^程中完成語音內(nèi)容識別與審核。我們在原有的實時語音互動直播的基礎(chǔ)上，整合了業(yè)界 Top 3 語音識別服務(wù)。同時，基于聲網(wǎng)的 AI 音頻降噪引擎，來提高音頻質(zhì)量，優(yōu)化語音識別效果。

　　語音識別的流程如下圖所示。首先通過聲網(wǎng)獨家研發(fā)的 AI 音頻降噪引擎消除背景音，優(yōu)化音頻質(zhì)量，讓語音更加清晰。我們在網(wǎng)絡(luò)電臺、語音交友等互聯(lián)網(wǎng)平臺聽到的語音音頻通常有兩類，一類是普通的語音，另一類是非文字的聲音，如嬌喘和ASMR，后者是不存在任何語義的。所以我們會通過不同的模塊來檢測，將語音轉(zhuǎn)化為文字通過內(nèi)容安全引擎進一步過濾，結(jié)合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規(guī)則引擎”和“分類器”等模塊，過濾掉音頻中涉政、涉黃（包括嬌喘、ASMR）、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團隊可以通過Web端后臺，對機器審核的結(jié)果進行抽查和復(fù)審，不斷優(yōu)化機器審核的準確率。這一過程可以大幅降人工審核成本，提升效率。

　　目前該解決方案可檢測出廣告、涉黃、涉政、暴恐、謾罵等違規(guī)內(nèi)容，適用于視頻直播、語音聊天室、娛樂直播、語音 FM、音樂社交等實時音視頻社交互動場景。

　　聲網(wǎng)Agora一站式智能語音識別方案優(yōu)勢包括：

　　1、調(diào)用 RESTful API，一站式接入
　　聲網(wǎng) Agora 目前提供了實時音頻通話 SDK。在應(yīng)用中集成 Agora SDK 后，開發(fā)者可以通過調(diào)用 RESTful API，即可為自己的應(yīng)用增加語音內(nèi)容審核服務(wù)。相比傳統(tǒng)內(nèi)容審核方案，聲網(wǎng)方案可以節(jié)省開發(fā)時間、服務(wù)器等接入成本。
　　2、AI 降噪，識別率更高
　　面對語音識別中常見的噪聲、背景音樂等音質(zhì)問題。我們會通過聲網(wǎng) AI 音頻降噪引擎對音頻進行優(yōu)化，以提升語音的識別率。與此同時，用戶的語音、音頻體驗也會得到提升。在今年的 RTC 2019 實時互聯(lián)網(wǎng)大會上，我們還將進一步分享 AI 音頻降噪背后的技術(shù)實踐，敬請期待。
　　3、語音交互低延時
　　聲網(wǎng) SDK 實現(xiàn)了全球端到端76ms 的實時音視頻低延時傳輸。聲網(wǎng)Agora SD-RTN? 實時通信網(wǎng)絡(luò)采用私有 UDP 協(xié)議進行傳輸，基于軟件定義優(yōu)化路由選擇最優(yōu)傳輸路徑，自動規(guī)避網(wǎng)絡(luò)擁塞和骨干網(wǎng)絡(luò)故障帶來的影響。在能保證低延時傳輸?shù)耐瑫r，聲網(wǎng)Agora SDK還支持 48kHz 高音質(zhì)語音。

【免責(zé)聲明】本文僅代表作者本人觀點，與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立，不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔全部責(zé)任。

相關(guān)熱詞搜索：聲網(wǎng)Agora 智能語音識別

上一篇:中國黃金集團石湖礦業(yè)選擇云翌I(lǐng)P指揮調(diào)度系統(tǒng)，助安全生產(chǎn)、提高協(xié)作效率

下一篇:最后一頁

相關(guān)閱讀：