• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
     首頁 > 資訊 > 文章精選 >

    2022年語音技術(shù)行業(yè)現(xiàn)狀之語音引擎

    2022-03-14 09:32:15   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com) (編譯/老秦): 在經(jīng)歷了 2020 年的不安之后,2021 年應(yīng)該代表著一場重置。但隨著大流行頑固地與我們同在,這一年最終表明,COVID-19 給整個(gè)經(jīng)濟(jì)和社會(huì)帶來的許多變化很可能會(huì)成為永久性的。顯然,語音技術(shù)可以發(fā)揮重要作用。由于支持這些應(yīng)用程序的語音開發(fā)平臺(tái)和引擎的穩(wěn)步發(fā)展,配備對(duì)話式 AI 的智能虛擬助手將繼續(xù)變得更好,并承擔(dān)更多的客戶服務(wù)負(fù)擔(dān)。更高的聯(lián)絡(luò)中心數(shù)量和更多的語音技術(shù)用例,包括在醫(yī)療保健和金融領(lǐng)域,確保了對(duì)分析的穩(wěn)定需求,以幫助解碼客戶情緒。這些和其他語音技術(shù)的進(jìn)步確保了未來,雖然不可預(yù)測,但也將保持令人興奮。如需詳細(xì)了解語音行業(yè)的貢獻(xiàn),請閱讀以下主題。
    • 語音引擎的現(xiàn)狀
    • 語音開發(fā)平臺(tái)現(xiàn)狀
    • 語音分析的狀態(tài)
    • 智能虛擬助手的現(xiàn)狀
    • 語音生物識(shí)別的現(xiàn)狀
    • 輔助技術(shù)現(xiàn)狀
    • 人工智能的現(xiàn)狀
      語音引擎的現(xiàn)狀
      去年是語音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見證了大量創(chuàng)新和市場增長。然而,障礙仍然存在,包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。
      "迄今為止,語音技術(shù)引擎的主要主題是創(chuàng)新,"Khoros 首席技術(shù)官 Sejal Amin 說。 "在過去的十年里,語音技術(shù)領(lǐng)域已經(jīng)出現(xiàn)了許多新的社交媒體平臺(tái),人工智能和自然語言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規(guī)模。"
      ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示,谷歌、亞馬遜、IBM 和微軟繼續(xù)在該領(lǐng)域占據(jù)主導(dǎo)地位,并繼續(xù)改進(jìn)其用于語音轉(zhuǎn)文本、自動(dòng)語音識(shí)別 (ASR)、文本轉(zhuǎn)- 用于聊天機(jī)器人、翻譯等的語音 (TTS)、對(duì)話管理和自然語言理解 (NLU)。
      "這些 APIs 越來越多地被多家公司,尤其是處于早期開發(fā)階段的初創(chuàng)公司用于設(shè)計(jì)基于語音的應(yīng)用程序,以在他們沒有資源構(gòu)建內(nèi)部技術(shù)的情況下滿足不同的用戶需求,"Ubale 指出。
      Verint 語音和文本分析副總裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等語音界面的出現(xiàn),消費(fèi)者已經(jīng)習(xí)慣將語音作為一種自然界面,因此語音引擎的發(fā)展正在加速。
      "世界上一些最大的公司以及初創(chuàng)企業(yè)社區(qū)都在對(duì)語音引擎技術(shù)和數(shù)據(jù)收集進(jìn)行投資,以幫助調(diào)整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場,創(chuàng)新迅速增長,圍繞語音、數(shù)據(jù)、情感和意圖打造了新的用例,"Ziv 說。
      移動(dòng)應(yīng)用程序中的語音助手似乎是目前最熱門的趨勢--一種幾乎滲透到每個(gè)人日常生活中的力量。
      "遠(yuǎn)場 ASR 擴(kuò)展了智能電視和智能顯示器的語音助手功能,"Ubale 說。 "我也對(duì)將語音能力擴(kuò)展到教育和醫(yī)療保健領(lǐng)域感到特別興奮。"
      2021 年語音的其他發(fā)展包括貨幣化、語音購物和新的語音設(shè)備。
      "我們已經(jīng)看到語音助手跨行業(yè)擴(kuò)展,越來越多的公司意識(shí)到語音人工智能技術(shù)的好處,并為他們的客戶尋求全渠道體驗(yàn)。品牌也開始考慮語音助手的重要方面,例如道德、性別、口音和文化偏見,"SoundHound 首席運(yùn)營官 Michael Zagorsek 解釋道。
      Yobe 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Hamid Nawab 對(duì)語音引擎在語言理解方面取得的進(jìn)步印象特別深刻,在無噪音環(huán)境中的準(zhǔn)確率超過 90%。
      "它們非常有效和強(qiáng)大,這在很大程度上要?dú)w功于自然語言處理方面的工作,"Nawab 說。
      年度回顧
      去年出現(xiàn)了一些突出的發(fā)展:
    • 微軟收購了 Nuance Communications。
    •  Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在沒有標(biāo)簽或文本的情況下從音頻中學(xué)習(xí)語音表示,讓語音技術(shù)對(duì)語言更具包容性,提高使用稀有語言的能力,并捕捉語音中的細(xì)微差別。
    •  Meta AI 還發(fā)布了一個(gè)大型開源數(shù)據(jù)集 Multilingual LibriSpeech,其中包含 50,000 小時(shí)的八種語言語音數(shù)據(jù),可用于訓(xùn)練獨(dú)立或組合的 ASR 模型。
    •  Apple 為簡單的導(dǎo)航任務(wù)推出了適用于 Siri 的設(shè)備上語音識(shí)別。
    •  谷歌啟動(dòng)項(xiàng)目LaMDA(對(duì)話應(yīng)用語言模型)。
    •  新數(shù)據(jù)被添加到任何人都可以用來訓(xùn)練語音應(yīng)用程序的通用語音數(shù)據(jù)集中。
    •  發(fā)布了 wav2vec2 的多語言版本,稱為 XLSR(跨語言語音表示),可使用 128 種語言進(jìn)行訓(xùn)練。
    •  Vosk API 發(fā)布了適用于 20 種語言的輕量級(jí) ASR 模型,這些模型與其 API 兼容,可用于實(shí)時(shí)語音識(shí)別。
      毫不奇怪,該行業(yè)已準(zhǔn)備好快速增長。 IDC 預(yù)測,全球?qū)υ捠饺斯ぶ悄苘浖袌鰧?2020 年的 22 億美元增長到 2025 年的 79 億美元,年復(fù)合增長率為 28.8%。
      "該市場的增長繼續(xù)受到會(huì)話 AI、語音到文本、文本到語音、機(jī)器翻譯和獨(dú)立自然語言處理 (NLP) 軟件的增長的推動(dòng),這些軟件用于創(chuàng)建會(huì)話 AI 解決方案并為其他類型的企業(yè)軟件提供對(duì)話功能,"Ziv 說。
      還要考慮一下,TTS 市場預(yù)計(jì)將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。
      在對(duì)話式AI 領(lǐng)域,許多人對(duì)端到端口語理解 (SLU) 系統(tǒng)的開發(fā)感到興奮。
      "雖然以前的努力旨在消除對(duì) ASR 的需求,并直接從原始語音轉(zhuǎn)向意圖和插槽識(shí)別,但新的努力旨在整合對(duì)話歷史以提高對(duì)人機(jī)對(duì)話的理解,"Ubale 說。 "雖然有幾家公司已經(jīng)在致力于在設(shè)備上部署 ASR,但亞馬遜最近關(guān)于融合 ASR 和設(shè)備上 SLU 的自然語言理解的研究也令人興奮。"
      Amin 認(rèn)為,隨著公司推進(jìn)對(duì)話式客戶服務(wù),多語言模式的采用增加是最重要的進(jìn)步。
      "轉(zhuǎn)向多語言語音助手可以提高可訪問性和品牌影響力,從而可以接觸到新的和以前可能無法進(jìn)入的市場的受眾。客戶更傾向于忠于了解其人口統(tǒng)計(jì)數(shù)據(jù)的品牌," Amin 說。
      去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴(kuò)展到其他領(lǐng)域。
      "研究人員表明,當(dāng)前語言模型背后的技術(shù)可用于解決廣泛的強(qiáng)化學(xué)習(xí)問題,"Nextiva 首席技術(shù)官 Phil Steitz 解釋說。 "我們還看到了跨多個(gè) AI/機(jī)器學(xué)習(xí)領(lǐng)域的可訪問性和易于實(shí)施的重大進(jìn)步。開源框架、模型和組件顯著降低了團(tuán)隊(duì)實(shí)施當(dāng)代 AI 解決方案的門檻。"
      有效過濾背景噪音和了解嘈雜環(huán)境中的用戶仍然是該領(lǐng)域的主要困難。
      "噪音會(huì)擾亂麥克風(fēng)拾取的語音模式。消除噪音的能力可以為在各種環(huán)境中與語音助手進(jìn)行交互打開大門,例如汽車、街道或背景噪音較多的區(qū)域,"Zagorsek 說。
      Nawab 將此稱為"雞尾酒會(huì)問題"。
      "盡管具有強(qiáng)大的自然語言理解能力,但機(jī)器學(xué)習(xí)尚未能夠解決這個(gè)問題,尤其是對(duì)于嘈雜的現(xiàn)實(shí)世界環(huán)境。這是語音轉(zhuǎn)文本、對(duì)話式人工智能平臺(tái)和語音助手的瓶頸,"他說。
      Elektrobit 用戶體驗(yàn)總監(jiān) J?rg Scherer 表示,集成 AI 技術(shù)已將識(shí)別性能提高到可接受的水平。
      "然而,對(duì)意圖的清晰理解仍然是一個(gè)挑戰(zhàn)。因此,需要考慮更多與上下文相關(guān)的信息,例如用戶的偏好、位置和對(duì)話歷史,以通過推理生成語音對(duì)話答案,"Scherer 建議道。
      管理語音多樣性和控制偏見是另一個(gè)需要注意的粘性小部件。
      "當(dāng)前的 ASR 模型現(xiàn)在非常擅長清晰、緩慢的語音,但它們需要更好地識(shí)別不同的方言和專業(yè)詞匯,"Steitz 說。
      另一個(gè)挑戰(zhàn)是在與客戶一起使用品牌 TTS 和真實(shí)的人類體驗(yàn)之間找到平衡,同時(shí)確保每個(gè)客戶群的每條消息都是不同的。
      然后,人們越來越擔(dān)心語音數(shù)據(jù)和隱私。 "組織需要有效地操作語音數(shù)據(jù),但要在不侵犯用戶和客戶隱私的情況下防止濫用,"Ziv 認(rèn)為。
      展望未來
      盡管面臨挑戰(zhàn),但預(yù)測要求未來令人興奮的發(fā)展。
      "我預(yù)見到人工智能驅(qū)動(dòng)的語音技術(shù)將越來越多地被開發(fā)用于改善社會(huì),特別是醫(yī)療保健和教育領(lǐng)域,"Ubale 說。 "現(xiàn)在,大多數(shù)現(xiàn)成的功能提供的語音信息非常有限。但在未來,工程師和科學(xué)家將更多地投資于構(gòu)建基礎(chǔ)能力,以應(yīng)對(duì)試圖學(xué)習(xí)一門新語言的用戶面臨的特定挑戰(zhàn),為專業(yè)發(fā)展而重新技能或提升技能,以及克服特定的醫(yī)療需求。"
      Zagorsek 設(shè)想了四個(gè)創(chuàng)新將強(qiáng)勁的領(lǐng)域:主動(dòng)語音助手、情緒檢測、擴(kuò)展的多語言和重音語言能力,以及增加的貨幣化。
      "在不久的將來,我們將看到語音助手通過收集有關(guān)上下文和情況的信息,然后主動(dòng)提出有用的建議并采取行動(dòng)來發(fā)揮積極作用并提供更大的有用性,"Zagorsek 說。
      Amin 預(yù)測,隨著客戶繼續(xù)尋求人際互動(dòng),同理心將變得更加重要。 "通過異步消息傳遞和客戶語音等先進(jìn)技術(shù),可以更好地滿足客戶的需求并提供白手套體驗(yàn),從而產(chǎn)生同理心。"
      Ziv 也同樣熱情。 "我預(yù)見到實(shí)時(shí)語音應(yīng)用程序的興起和持續(xù)發(fā)展勢頭,例如實(shí)時(shí)座席輔助,"他說。 "我還看到了與虛擬現(xiàn)實(shí)和語音交互的沉浸式人機(jī)語音的出現(xiàn),例如,鍵盤和通過手指發(fā)短信消失了。"
      聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
      原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx
     
    【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

    專題

    CTI論壇會(huì)員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 女性| 阿拉善盟| 察雅县| 阿图什市| 保定市| 石景山区| 德化县| 怀仁县| 同仁县| 新建县| 百色市| 富源县| 长治市| 兴业县| 和政县| 大英县| 莎车县| 河北省| 灌阳县| 广安市| 梧州市| 巩义市| 东宁县| 杭锦后旗| 达孜县| 霸州市| 思南县| 平顺县| 特克斯县| 阿拉善盟| 黑山县| 泗水县| 珠海市| 德昌县| 盈江县| 富平县| 宜春市| 金山区| 应用必备| 白山市| 大宁县| http://444 http://444 http://444 http://444 http://444 http://444