
依圖、阿里云重磅加入,智能語(yǔ)音識別方案升級
近年來(lái),隨著(zhù)直播、短視頻、語(yǔ)音社交等行業(yè)的快速發(fā)展,由用戶(hù)創(chuàng )造的UGC內容成為了互聯(lián)網(wǎng)內容生態(tài)的重要構成,并豐富了人們的互聯(lián)網(wǎng)生活。而另一方面,隨著(zhù)用戶(hù)UGC內容越來(lái)越多,涉黃、涉政、不良廣告等違法、違規的內容也頻頻出現,成為了“害群之馬”,給很多平臺帶來(lái)了風(fēng)險。同時(shí),相對于圖文和視頻,音頻審核本身在技術(shù)上也更具難度,又增加了平臺方的內容審核壓力。
在去年8月,聲網(wǎng)Agora就推出了“一站式智能語(yǔ)音識別方案”,為企業(yè)提供可集成實(shí)時(shí)音視頻、實(shí)時(shí)錄制和實(shí)時(shí)智能語(yǔ)音識別的一站式服務(wù),在語(yǔ)音識別服務(wù)方面接入了數美科技的“天凈”智能語(yǔ)音審核系統,通過(guò)聲紋檢測、語(yǔ)音識別等技術(shù),智能識別語(yǔ)音環(huán)境中的涉黃、涉政、廣告等違法違規信息,受到了很多企業(yè)的好評。
而此次升級后的“一站式智能語(yǔ)音識別方案”新增接入了阿里云、依圖科技先進(jìn)、智能的語(yǔ)音識別技術(shù),整合了業(yè)界TOP3智能語(yǔ)音識別服務(wù)商的技術(shù)優(yōu)勢以提供目前互聯(lián)網(wǎng)行業(yè)最全面、最高效的智能語(yǔ)音識別技術(shù)。例如,數美科技的“天凈”智能語(yǔ)音識別,基于深度學(xué)習語(yǔ)音識別技術(shù),多維度智能實(shí)時(shí)審核。深挖場(chǎng)景需求,為直播視頻流、UGC短視頻、FM電臺、語(yǔ)音廣場(chǎng)、語(yǔ)音直播間等各類(lèi)場(chǎng)景提供智能內容過(guò)濾服務(wù),通過(guò)語(yǔ)音識別轉文本的方式,識別文本內容中涉政、色情、廣告等不良信息;業(yè)內首創(chuàng )的嬌喘語(yǔ)音識別,基于基于Bi-GRU、Attention模型,精準識別聲音中含有嬌喘、呻吟、耳騷、喊麥等違規音頻,準確率達到90%以上。聲紋識別與檢索對比”技術(shù)可進(jìn)行聲紋聚類(lèi)、關(guān)聯(lián),發(fā)現線(xiàn)上、線(xiàn)下語(yǔ)音廣告與欺詐行為等。
而依圖科技在公共安全領(lǐng)域早已深耕多年。依靠世界級算法團隊自研的語(yǔ)音識別、自然語(yǔ)言理解和聲紋算法,依圖的“智能語(yǔ)音審核”擁有準、快、省三大特點(diǎn)。準——憑借世界級算法能力加已有場(chǎng)景數據的螺旋迭代提升,依圖的召回和準確率居行業(yè)前列,幫企業(yè)最大程度的降低風(fēng)險。快——實(shí)時(shí)監測并在3秒內返回結果。省——同步返回高精準轉寫(xiě)文本和違規音頻片段,幫人工審核員提高效率、節省時(shí)間。

打通實(shí)時(shí)音視頻+智能語(yǔ)音識別+AI,企業(yè)一站式接入
聲網(wǎng)Agora的“一站式智能語(yǔ)音識別方案”可為企業(yè)提供實(shí)時(shí)音視頻+實(shí)時(shí)錄制+實(shí)時(shí)智能語(yǔ)音識別的一站式高度集成服務(wù),也是目前唯一一家打通人工智能、實(shí)時(shí)語(yǔ)音識別、實(shí)時(shí)音視頻三大技術(shù)解決方案的服務(wù)商。使用聲網(wǎng)的一站式服務(wù),企業(yè)無(wú)需部署額外SDK、無(wú)需自己對接CDN廠(chǎng)商、更無(wú)需支付拉流成本,就可同時(shí)上線(xiàn)直播(實(shí)時(shí)音視頻)和鑒黃(實(shí)時(shí)語(yǔ)音識別)功能,幫助企業(yè)大幅節省接入成本,真正做到一站式方便接入。
在智能語(yǔ)音識別方面,聲網(wǎng)Agora整合了業(yè)界TOP3智能語(yǔ)音識別服務(wù)商的技術(shù)優(yōu)勢。而在實(shí)時(shí)音視頻功能方面,聲網(wǎng)自建的軟件定義實(shí)時(shí)網(wǎng)SD-RTN?專(zhuān)為實(shí)時(shí)音視頻業(yè)務(wù)提供SLA/QoS質(zhì)量保證,能為企業(yè)提供高并發(fā)、高可靠性、低延時(shí)和抗弱網(wǎng)等特性的實(shí)時(shí)音視頻技術(shù)。
聲網(wǎng)Agora目前在全球擁有250多個(gè)數據中心。在網(wǎng)絡(luò )架構設計上能夠應對10倍以上的負荷,具備千萬(wàn)級并發(fā)能力。聲網(wǎng)的軟件定義實(shí)時(shí)網(wǎng)SD-RTN™擁有超低延時(shí)特性,可做到全球端到端延時(shí)小于400ms,延時(shí)中位數76ms,處于行業(yè)領(lǐng)先水平。聲網(wǎng)還具備優(yōu)秀的弱網(wǎng)傳輸和抗丟包算法,可以在60%的丟包環(huán)境下保障音視頻流暢,70%的網(wǎng)絡(luò )丟包環(huán)境下保障語(yǔ)音的流暢。在終端性能和適配方面,聲網(wǎng)針對實(shí)時(shí)互聯(lián)網(wǎng)lastmile做了深度優(yōu)化,目前已經(jīng)適配6000多款終端設備,網(wǎng)絡(luò )覆蓋全球200多個(gè)國家和地區,即使在網(wǎng)絡(luò )環(huán)境差的偏遠山區或跨國場(chǎng)景中用戶(hù)也能實(shí)現順暢互動(dòng)。
此外,對于語(yǔ)音識別中常見(jiàn)的噪聲、背景音等音質(zhì)問(wèn)題,聲網(wǎng)的一站式智能語(yǔ)音識別解決方案還融合聲網(wǎng)Agora語(yǔ)音引擎與AI音頻降噪算法,可提供去除背景音、環(huán)境音之后的高音質(zhì)音頻源,在原來(lái)算法的基礎上將不良信息的識別率有效提高30%以上。
通過(guò)聲網(wǎng)Agora的“一站式智能語(yǔ)音識別方案”可以幫助企業(yè)嚴格、有效的凈化平臺內容質(zhì)量,降低監管風(fēng)險,提升用戶(hù)體驗,同時(shí)還能為企業(yè)大幅節省接入成本。據了解,接下來(lái)聲網(wǎng)還將聯(lián)合更多業(yè)界知名智能語(yǔ)音識別服務(wù)商,為企業(yè)持續提供業(yè)界最高效、最嚴格的內容審核機制,促進(jìn)網(wǎng)絡(luò )生態(tài)健康發(fā)展。