• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >
     首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >

    傳音持續深耕AI語(yǔ)音多模態(tài)技術(shù),打造本地化智能交互體驗

    2023-09-15 13:41:30   作者:   來(lái)源:   評論:0  點(diǎn)擊:


      伴隨著(zhù)5G、人工智能技術(shù)的發(fā)展,智能語(yǔ)音已經(jīng)隨著(zhù)各種智能終端產(chǎn)品滲透到人們的日常生活中,帶來(lái)了更多便捷和可能性。作為新興市場(chǎng)智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)提供商,傳音聚焦人工智能領(lǐng)域持續創(chuàng )新,不斷推進(jìn)AI語(yǔ)音技術(shù)的研究和應用,挖掘更多本地化用戶(hù)場(chǎng)景要求,為新興市場(chǎng)用戶(hù)帶來(lái)全場(chǎng)景智能交互體驗。

      目前,傳音已經(jīng)在語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成、自然語(yǔ)言處理、知識圖譜等方面形成了的自身的AI語(yǔ)音底層技術(shù)能力,構建起小語(yǔ)種語(yǔ)音數據優(yōu)勢,并在多語(yǔ)種語(yǔ)音助手、數字人、語(yǔ)音偽造檢測技術(shù)方面取得了重大突破。今年以來(lái),傳音AI技術(shù)部成果不斷,接連在ICASSP 2023 SLU口語(yǔ)理解挑戰賽、IJCAI 2023 ADD 語(yǔ)音深度偽造檢測國際挑戰賽奪得佳績(jì),并在國際多媒體旗艦學(xué)術(shù)會(huì )議ICME 2023上發(fā)表數字人多模態(tài)交互的相關(guān)學(xué)術(shù)論文。

      多語(yǔ)種語(yǔ)音助手構建本地語(yǔ)音交互內容生態(tài)

      語(yǔ)音助手是智能手機的標配應用之一,其核心技術(shù)為語(yǔ)音交互和自然語(yǔ)言理解,旨在幫助用戶(hù)更快捷、高效地執行目標任務(wù)。面對新興市場(chǎng)本地語(yǔ)音交互的需求,傳音長(cháng)期深耕多語(yǔ)種語(yǔ)音助手技術(shù),著(zhù)力洞察本地用戶(hù)需求,形成技術(shù)解決方案,在探索和研發(fā)過(guò)程中沉淀了深厚的技術(shù)能力和實(shí)踐經(jīng)驗。

      在語(yǔ)音技術(shù)領(lǐng)域國際頂級會(huì )議ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)組織的2023口語(yǔ)理解挑戰賽SLU(Spoken Language Understanding)中,傳音AI技術(shù)部憑借在語(yǔ)音識別和語(yǔ)義理解方面的突出表現,以71.97%的準確率獲斬獲離線(xiàn)語(yǔ)音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協(xié)會(huì )(Institute of Electrical and Electronics Engineers)收錄。

      傳音AI技術(shù)部同事在ICASSP 2023分享研究成果

      當前,語(yǔ)音助手主要面向主流語(yǔ)言,而對小眾語(yǔ)言、特定人群等細分領(lǐng)域覆蓋較少。傳音針對非洲、南亞等新興市場(chǎng)用戶(hù)的本地口音和小語(yǔ)種,依托海量手機用戶(hù)資源,建設了一套本地化低成本、高質(zhì)量的語(yǔ)料數據生產(chǎn)體系,解決小語(yǔ)種語(yǔ)料匱乏、數據稀缺的問(wèn)題。在此基礎上,傳音開(kāi)發(fā)能適應新興市場(chǎng)本地用戶(hù)語(yǔ)言文化特點(diǎn)的多語(yǔ)種語(yǔ)音助手,幫助當地用戶(hù)更加便捷地使用本地語(yǔ)言與手機進(jìn)行語(yǔ)音交互。目前,傳音的多語(yǔ)種語(yǔ)音助手技術(shù)已支持英語(yǔ)、法語(yǔ)、豪薩語(yǔ)、阿拉伯語(yǔ)、斯瓦西里語(yǔ)等語(yǔ)言的語(yǔ)音交互和自然語(yǔ)言理解能力,覆蓋聯(lián)系人通話(huà)、APP快速啟動(dòng)、音樂(lè )播放、WhatsApp消息、閑聊等100多種使用場(chǎng)景。

      面向本地用戶(hù)生活服務(wù)的訴求,傳音的多語(yǔ)種AI語(yǔ)音助手技術(shù)將不斷接入更多生活、出行、學(xué)習、工作等場(chǎng)景的生態(tài)服務(wù),構建多領(lǐng)域跨語(yǔ)言的AI內容服務(wù)生態(tài),讓智能化語(yǔ)音服務(wù)滲透到本地生活的方方面面,讓更多小語(yǔ)種的使用人群受益。

      AI+數字人技術(shù)賦能傳音多場(chǎng)景業(yè)務(wù)

      隨著(zhù)交互智能技術(shù)的加速發(fā)展,數字人正在從技術(shù)創(chuàng )新走向產(chǎn)業(yè)應用,在娛樂(lè )、教育、醫療等多個(gè)領(lǐng)域發(fā)揮作用。傳音積極擁抱AI發(fā)展機遇,提前布局數字人技術(shù),建立了完備的全鏈路技術(shù)和工程化的自研能力。傳音數字人系統,包含2D真人和3D寫(xiě)實(shí)數字人,擁有基于多語(yǔ)種的語(yǔ)音識別、語(yǔ)音合成、語(yǔ)音喚醒、自然語(yǔ)言理解和數字人等能力的數據資源,在多語(yǔ)種語(yǔ)音對話(huà)、人設和外觀(guān)、智能化場(chǎng)景交互等領(lǐng)域形成了自身的本地化特色和行業(yè)領(lǐng)先性。今年1月,傳音數字人系統獲得由中國信通院所頒發(fā)的數字人領(lǐng)域權威標準認證。這也是當前唯一通過(guò)中國信通院評測,以“交互對話(huà)”為核心的中國手機廠(chǎng)商數字人系統。

      為了提高虛擬形象的仿真效果、合成出逼真且富有表現力的數字人視頻,傳音AI技術(shù)部自研端到端技術(shù),在優(yōu)化數字人視頻生成質(zhì)量的過(guò)程中,基于Unet網(wǎng)絡(luò )提出了一種新的技術(shù)框架densely-connected Unet結構,同時(shí)引入了CLIP的encoder結構,利用文本語(yǔ)義信息提升數字人嘴部動(dòng)畫(huà)效果。同時(shí)該技術(shù)提出人臉關(guān)鍵點(diǎn)技術(shù)的概率密度圖,增加了模型網(wǎng)絡(luò )的模態(tài)信息,提升了模型生成的質(zhì)量。這一技術(shù)突破能夠讓數字人的面部形象更加真實(shí)、細膩,同時(shí)提升語(yǔ)音和唇形的一致性,其生成效果達到了學(xué)術(shù)上的領(lǐng)先水平。相關(guān)學(xué)術(shù)論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國際多媒體旗艦學(xué)術(shù)會(huì )議ICME 2023(IEEE International Conference on Multimedia and Expo)成功錄用。

      目前,傳音數字人系統已經(jīng)深度應用于多業(yè)務(wù)場(chǎng)景,不僅落地海外手機門(mén)店,擔任智能導購員為用戶(hù)購買(mǎi)手機提供參考,還作為智能語(yǔ)音助手賦能多類(lèi)智能終端產(chǎn)品,提升用戶(hù)體驗。下一步傳音將通過(guò)“AI+數字人”技術(shù)賦能多場(chǎng)景業(yè)務(wù),積極探索數字人版語(yǔ)音助手和客服系統等新業(yè)務(wù)形態(tài),為用戶(hù)帶來(lái)全新的智能交互體驗。

      持續構建AI語(yǔ)音底層技術(shù)能力

      在A(yíng)I技術(shù)快速發(fā)展的現今,算法生成音頻和音頻偽造已經(jīng)可以做到以假亂真,對于普通用戶(hù)來(lái)說(shuō)辨別音頻真假非常困難。為了維護信息的可信性、保障社會(huì )安全,語(yǔ)音偽造檢測技術(shù)變得至關(guān)重要,已經(jīng)成為人工智能領(lǐng)域的一個(gè)較新的研究方向。傳音圍繞智能終端產(chǎn)品業(yè)務(wù)場(chǎng)景,以本地用戶(hù)需求為導向,不斷延伸AI語(yǔ)音底層技術(shù)能力,布局新技術(shù)領(lǐng)域,在語(yǔ)音偽造檢測技術(shù)上取得了重大突破。

      傳音AI技術(shù)部在國際人工智能聯(lián)合會(huì )議IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)組織的第二屆語(yǔ)音深度偽造檢測國際挑戰賽ADD(The Second Audio Deepfake Detection Challenge)“篡改區域定位”(Manipulation Region Location)分賽道上奪得第二名。在比賽中,傳音AI技術(shù)部自研創(chuàng )新的AI模型算法和技術(shù),能夠準確識別并定位音頻中語(yǔ)音的篡改行為,從而有效保障數字音頻的原始性和真實(shí)性,為AI應用及信息安全建設提供新思路。相關(guān)學(xué)術(shù)論文已成功發(fā)表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)會(huì )議上。

      下一步,傳音AI技術(shù)部將繼續探索語(yǔ)音深度偽造檢測技術(shù)在傳音智能終端產(chǎn)品上的應用,如通話(huà)詐騙檢查保護用戶(hù)隱私安全等,不斷提升用戶(hù)使用體驗。

      未來(lái),傳音將繼續在A(yíng)I語(yǔ)音多模態(tài)技術(shù)領(lǐng)域發(fā)力,圍繞“手機+移動(dòng)互聯(lián)網(wǎng)服務(wù)+家電、數碼配件”核心業(yè)務(wù)需求,結合對新興市場(chǎng)和本地消費者的深刻洞察,為用戶(hù)提供適切其需求的智能生活體驗,形成本地化的AI內容服務(wù)生態(tài),持續滿(mǎn)足多語(yǔ)種、多場(chǎng)景、個(gè)性化、智能化的應用需求。

    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 永清县| 定陶县| 依兰县| 上栗县| 东光县| 南投县| 含山县| 定兴县| 东至县| 张掖市| 上思县| 铜川市| 潞城市| 越西县| 木兰县| 龙南县| 天等县| 南丰县| 阳信县| 广宁县| 桃江县| 全州县| 丽水市| 淮南市| 准格尔旗| 会东县| 喀什市| 陆丰市| 惠水县| 云安县| 大悟县| 原阳县| 远安县| 邵武市| 壤塘县| 桐柏县| 新津县| 治县。| 富顺县| 滦平县| 南平市| http://444 http://444 http://444 http://444 http://444 http://444