• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    語(yǔ)音合成技術(shù)應用的興起(和風(fēng)險)

    2022-08-19 08:34:19   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com) (編譯/老秦): 文本轉語(yǔ)音 (TTS) 是一個(gè)已有數十年歷史的領(lǐng)域,但采用通常僅限于少數幾個(gè)領(lǐng)域,因為合成語(yǔ)音讓人感覺(jué)不自然和機器人化。但在過(guò)去的五年里,由于深度學(xué)習,合成聲音(又名神經(jīng) TTS)可以變得更加自然和悅耳。音調、節奏、發(fā)音、口音、情感和說(shuō)話(huà)風(fēng)格可以根據需要進(jìn)行調整。
      Amazon、Google、IBM 和 Microsoft 等大型云供應商提供的 APIs允許開(kāi)發(fā)人員輕松地將語(yǔ)音功能添加到各種應用程序中。除了大型供應商之外,許多創(chuàng )新的初創(chuàng )公司和專(zhuān)家正在想象合成語(yǔ)音的新可能性。
      這些不同的用例分為兩大類(lèi)。
      朗讀用例
      公司可以為這些用例使用庫存語(yǔ)音或創(chuàng )建定制的合成語(yǔ)音(包括名人語(yǔ)音)。
      ·客戶(hù)服務(wù)。自動(dòng)語(yǔ)音應答是最古老的用例之一,但對話(huà)路徑和響應必須仔細預先錄制并完全編寫(xiě)腳本。開(kāi)放式對話(huà)是有限的,因為不可能預先記錄每一個(gè)潛在的反應。現在,通過(guò)在有限的訓練數據語(yǔ)料庫(即預先錄制的音頻)上使用人工智能,可以創(chuàng )建合成語(yǔ)音并將其用于開(kāi)放式對話(huà)應用程序。
      ·新聞閱讀。許多出版物(例如,華盛頓郵報、BBC、華爾街日報)都使用 TTS,因此讀者可以收聽(tīng)文章。一些媒體網(wǎng)站提供"聽(tīng)故事"作為付費訂閱者的高級功能。
      ·電子郵件。將向您讀出電子郵件(例如,在 Microsoft Outlook 中)。例如,當您開(kāi)車(chē)時(shí),這可以實(shí)現免提體驗。
      ·輔助技術(shù)。語(yǔ)音銀行可以幫助患有運動(dòng)神經(jīng)元疾病的人生成自己的合成語(yǔ)音,可用于輔助語(yǔ)音設備。一些應用程序使有語(yǔ)言障礙的用戶(hù)能夠通過(guò) TTS 接口設備說(shuō)話(huà)。為了幫助有視力挑戰的用戶(hù),有一些應用程序可以讀出處方標簽、產(chǎn)品標簽,還有一些應用程序可以提供用戶(hù)周?chē)h(huán)境的提示和描述。
      富媒體內容用例
      這組用例通常涉及音頻和視頻內容。
      ·配音。視頻配音和畫(huà)外音并不新鮮,但 Netflix 等流媒體平臺的興起創(chuàng )造了全球觀(guān)眾和對將內容配音成多種語(yǔ)言的新需求。通過(guò)混合使用語(yǔ)音識別、機器翻譯和合成聲音,可以將音頻配音為原始演員聲音中的不同語(yǔ)言。唇形同步曾經(jīng)是配音為不同語(yǔ)言的內容的問(wèn)題,但現在人工智能有助于創(chuàng )建與口語(yǔ)相匹配的合成唇形動(dòng)作。
      ·音頻編輯。這是一個(gè)創(chuàng )新用例,有助于減少音頻編輯的障礙。使用自動(dòng)生成的腳本或文本,您可以通過(guò)修改相應的文本來(lái)刪除填充詞、添加新音頻或刪除片段。這有可能大大降低編輯成本和時(shí)間。
      ·在線(xiàn)和元宇宙安全。使用人工智能,聲音可以被轉換或改變,同時(shí)保留其情感和表現力。就像游戲玩家將視覺(jué)皮膚應用于他們的化身一樣,可以應用語(yǔ)音皮膚來(lái)保護隱私并減少游戲環(huán)境或基于音頻的社交媒體(例如 Twitter 空間或俱樂(lè )部會(huì )所)中的騷擾。
      道德問(wèn)題和風(fēng)險
      隨著(zhù)合法用例的增加,濫用和欺詐的可能性也在增加。
      用戶(hù)同意使用合成聲音。在一部關(guān)于已故名廚 Anthony Bourdain的紀錄片中,他的合成聲音被用來(lái)讓他"說(shuō)出"幾句他從未真正說(shuō)過(guò)的臺詞。這樣的例子提出了'同意'的問(wèn)題,什么是允許的,什么是不允許的。
      ·深度偽造Deepfakes。不難想象,隨著(zhù)合成音頻和視頻功能變得更好,我們將如何充斥著(zhù)復雜的公眾人物(甚至是普通公民)的深度偽造。它可能是一個(gè)錯誤信息的雷區,會(huì )對公眾信任和信息來(lái)源的可靠性產(chǎn)生影響。
      ·語(yǔ)音網(wǎng)絡(luò )釣魚(yú)和欺詐。《華爾街日報》報道說(shuō),一位 CEO 的聲音被利用進(jìn)行欺詐,以他的聲音給他的同事打電話(huà),指示資金轉移,這是一種全新的網(wǎng)絡(luò )犯罪類(lèi)別,由合成聲音和社會(huì )工程學(xué)結合而成。
      公司需要善于負責任地使用合成語(yǔ)音用例來(lái)改善用戶(hù)體驗,提供更好的客戶(hù)服務(wù),并創(chuàng )造新的產(chǎn)品和服務(wù)。但他們還需要防范惡意行為者的對抗性攻擊。對于語(yǔ)音應用來(lái)說(shuō),這是一個(gè)勇敢的新世界。
      KashyapKompella是全球人工智能行業(yè)分析公司 rpa2ai Research 的首席執行官,也是《實(shí)用人工智能:企業(yè)手冊》的合著(zhù)者。
      聲明:版權所有 非合作媒體謝絕轉載
      作者:KashyapKompella
      原文網(wǎng)址:https://www.speechtechmag.com/Articles/Columns/Interact/The-Rise-(and-Risks)-of-Speech-Synthesis-Applications-154268.aspx
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 甘南县| 房产| 忻城县| 海丰县| 大兴区| 武邑县| 武川县| 淮滨县| 金溪县| 岢岚县| 囊谦县| 遂平县| 肃宁县| 南开区| 海林市| 赫章县| 浙江省| 独山县| 阿拉善左旗| 托克托县| 惠安县| 长宁县| 乐东| 濉溪县| 曲阜市| 青川县| 固原市| 剑河县| 普格县| 宁强县| 思茅市| 十堰市| 郎溪县| 辉南县| 徐水县| 青龙| 建水县| 万载县| 读书| 大丰市| 延川县| http://444 http://444 http://444 http://444 http://444 http://444