CTI論壇(ctiforum.com) （編譯/老秦）：在經(jīng)歷了 2020 年的不安之后，2021 年應(yīng)該代表著一場重置。但隨著大流行頑固地與我們同在，這一年最終表明，COVID-19 給整個經(jīng)濟(jì)和社會帶來的許多變化很可能會成為永久性的。顯然，語音技術(shù)可以發(fā)揮重要作用。由于支持這些應(yīng)用程序的語音開發(fā)平臺和引擎的穩(wěn)步發(fā)展，配備對話式 AI 的智能虛擬助手將繼續(xù)變得更好，并承擔(dān)更多的客戶服務(wù)負(fù)擔(dān)。更高的聯(lián)絡(luò)中心數(shù)量和更多的語音技術(shù)用例，包括在醫(yī)療保健和金融領(lǐng)域，確保了對分析的穩(wěn)定需求，以幫助解碼客戶情緒。這些和其他語音技術(shù)的進(jìn)步確保了未來，雖然不可預(yù)測，但也將保持令人興奮。如需詳細(xì)了解語音行業(yè)的貢獻(xiàn)，請閱讀以下主題。

語音引擎的現(xiàn)狀
語音開發(fā)平臺現(xiàn)狀
語音分析的狀態(tài)
智能虛擬助手的現(xiàn)狀
語音生物識別的現(xiàn)狀
輔助技術(shù)現(xiàn)狀
人工智能的現(xiàn)狀

　　語音引擎的現(xiàn)狀
　　去年是語音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見證了大量創(chuàng)新和市場增長。然而，障礙仍然存在，包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。

　　"迄今為止，語音技術(shù)引擎的主要主題是創(chuàng)新，"Khoros 首席技術(shù)官 Sejal Amin 說。 "在過去的十年里，語音技術(shù)領(lǐng)域已經(jīng)出現(xiàn)了許多新的社交媒體平臺，人工智能和自然語言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規(guī)模。"

　　ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示，谷歌、亞馬遜、IBM 和微軟繼續(xù)在該領(lǐng)域占據(jù)主導(dǎo)地位，并繼續(xù)改進(jìn)其用于語音轉(zhuǎn)文本、自動語音識別 (ASR)、文本轉(zhuǎn)- 用于聊天機(jī)器人、翻譯等的語音 (TTS)、對話管理和自然語言理解 (NLU)。

　　"這些 APIs 越來越多地被多家公司，尤其是處于早期開發(fā)階段的初創(chuàng)公司用于設(shè)計(jì)基于語音的應(yīng)用程序，以在他們沒有資源構(gòu)建內(nèi)部技術(shù)的情況下滿足不同的用戶需求，"Ubale 指出。

　　Verint 語音和文本分析副總裁 Daniel Ziv 表示，由于 Alexa 和 Siri 等語音界面的出現(xiàn)，消費(fèi)者已經(jīng)習(xí)慣將語音作為一種自然界面，因此語音引擎的發(fā)展正在加速。

　　"世界上一些最大的公司以及初創(chuàng)企業(yè)社區(qū)都在對語音引擎技術(shù)和數(shù)據(jù)收集進(jìn)行投資，以幫助調(diào)整和優(yōu)化這些引擎。這是一個炙手可熱的市場，創(chuàng)新迅速增長，圍繞語音、數(shù)據(jù)、情感和意圖打造了新的用例，"Ziv 說。

　　移動應(yīng)用程序中的語音助手似乎是目前最熱門的趨勢--一種幾乎滲透到每個人日常生活中的力量。

　　"遠(yuǎn)場 ASR 擴(kuò)展了智能電視和智能顯示器的語音助手功能，"Ubale 說。 "我也對將語音能力擴(kuò)展到教育和醫(yī)療保健領(lǐng)域感到特別興奮。"

　　2021 年語音的其他發(fā)展包括貨幣化、語音購物和新的語音設(shè)備。

　　"我們已經(jīng)看到語音助手跨行業(yè)擴(kuò)展，越來越多的公司意識到語音人工智能技術(shù)的好處，并為他們的客戶尋求全渠道體驗(yàn)。品牌也開始考慮語音助手的重要方面，例如道德、性別、口音和文化偏見，"SoundHound 首席運(yùn)營官 Michael Zagorsek 解釋道。

　　Yobe 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Hamid Nawab 對語音引擎在語言理解方面取得的進(jìn)步印象特別深刻，在無噪音環(huán)境中的準(zhǔn)確率超過 90%。

　　"它們非常有效和強(qiáng)大，這在很大程度上要?dú)w功于自然語言處理方面的工作，"Nawab 說。

　　年度回顧

　　去年出現(xiàn)了一些突出的發(fā)展：

微軟收購了 Nuance Communications。
Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM)，它可以在沒有標(biāo)簽或文本的情況下從音頻中學(xué)習(xí)語音表示，讓語音技術(shù)對語言更具包容性，提高使用稀有語言的能力，并捕捉語音中的細(xì)微差別。
Meta AI 還發(fā)布了一個大型開源數(shù)據(jù)集 Multilingual LibriSpeech，其中包含 50，000 小時的八種語言語音數(shù)據(jù)，可用于訓(xùn)練獨(dú)立或組合的 ASR 模型。
Apple 為簡單的導(dǎo)航任務(wù)推出了適用于 Siri 的設(shè)備上語音識別。
谷歌啟動項(xiàng)目LaMDA（對話應(yīng)用語言模型）。
新數(shù)據(jù)被添加到任何人都可以用來訓(xùn)練語音應(yīng)用程序的通用語音數(shù)據(jù)集中。
發(fā)布了 wav2vec2 的多語言版本，稱為 XLSR（跨語言語音表示），可使用 128 種語言進(jìn)行訓(xùn)練。
Vosk API 發(fā)布了適用于 20 種語言的輕量級 ASR 模型，這些模型與其 API 兼容，可用于實(shí)時語音識別。

　　毫不奇怪，該行業(yè)已準(zhǔn)備好快速增長。 IDC 預(yù)測，全球?qū)υ捠饺斯ぶ悄苘浖袌鰧?2020 年的 22 億美元增長到 2025 年的 79 億美元，年復(fù)合增長率為 28.8%。

　　"該市場的增長繼續(xù)受到會話 AI、語音到文本、文本到語音、機(jī)器翻譯和獨(dú)立自然語言處理 (NLP) 軟件的增長的推動，這些軟件用于創(chuàng)建會話 AI 解決方案并為其他類型的企業(yè)軟件提供對話功能，"Ziv 說。

　　還要考慮一下，TTS 市場預(yù)計(jì)將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。

　　在對話式AI 領(lǐng)域，許多人對端到端口語理解 (SLU) 系統(tǒng)的開發(fā)感到興奮。

　　"雖然以前的努力旨在消除對 ASR 的需求，并直接從原始語音轉(zhuǎn)向意圖和插槽識別，但新的努力旨在整合對話歷史以提高對人機(jī)對話的理解，"Ubale 說。 "雖然有幾家公司已經(jīng)在致力于在設(shè)備上部署 ASR，但亞馬遜最近關(guān)于融合 ASR 和設(shè)備上 SLU 的自然語言理解的研究也令人興奮。"

　　Amin 認(rèn)為，隨著公司推進(jìn)對話式客戶服務(wù)，多語言模式的采用增加是最重要的進(jìn)步。

　　"轉(zhuǎn)向多語言語音助手可以提高可訪問性和品牌影響力，從而可以接觸到新的和以前可能無法進(jìn)入的市場的受眾。客戶更傾向于忠于了解其人口統(tǒng)計(jì)數(shù)據(jù)的品牌，" Amin 說。

　　去年另一個值得注意的發(fā)展是將核心序列建模擴(kuò)展到其他領(lǐng)域。

　　"研究人員表明，當(dāng)前語言模型背后的技術(shù)可用于解決廣泛的強(qiáng)化學(xué)習(xí)問題，"Nextiva 首席技術(shù)官 Phil Steitz 解釋說。 "我們還看到了跨多個 AI/機(jī)器學(xué)習(xí)領(lǐng)域的可訪問性和易于實(shí)施的重大進(jìn)步。開源框架、模型和組件顯著降低了團(tuán)隊(duì)實(shí)施當(dāng)代 AI 解決方案的門檻。"

　　有效過濾背景噪音和了解嘈雜環(huán)境中的用戶仍然是該領(lǐng)域的主要困難。

　　"噪音會擾亂麥克風(fēng)拾取的語音模式。消除噪音的能力可以為在各種環(huán)境中與語音助手進(jìn)行交互打開大門，例如汽車、街道或背景噪音較多的區(qū)域，"Zagorsek 說。

　　Nawab 將此稱為"雞尾酒會問題"。

　　"盡管具有強(qiáng)大的自然語言理解能力，但機(jī)器學(xué)習(xí)尚未能夠解決這個問題，尤其是對于嘈雜的現(xiàn)實(shí)世界環(huán)境。這是語音轉(zhuǎn)文本、對話式人工智能平臺和語音助手的瓶頸，"他說。

　　Elektrobit 用戶體驗(yàn)總監(jiān) J？rg Scherer 表示，集成 AI 技術(shù)已將識別性能提高到可接受的水平。

　　"然而，對意圖的清晰理解仍然是一個挑戰(zhàn)。因此，需要考慮更多與上下文相關(guān)的信息，例如用戶的偏好、位置和對話歷史，以通過推理生成語音對話答案，"Scherer 建議道。

　　管理語音多樣性和控制偏見是另一個需要注意的粘性小部件。

　　"當(dāng)前的 ASR 模型現(xiàn)在非常擅長清晰、緩慢的語音，但它們需要更好地識別不同的方言和專業(yè)詞匯，"Steitz 說。

　　另一個挑戰(zhàn)是在與客戶一起使用品牌 TTS 和真實(shí)的人類體驗(yàn)之間找到平衡，同時確保每個客戶群的每條消息都是不同的。

　　然后，人們越來越擔(dān)心語音數(shù)據(jù)和隱私。 "組織需要有效地操作語音數(shù)據(jù)，但要在不侵犯用戶和客戶隱私的情況下防止濫用，"Ziv 認(rèn)為。

　　展望未來

　　盡管面臨挑戰(zhàn)，但預(yù)測要求未來令人興奮的發(fā)展。

　　"我預(yù)見到人工智能驅(qū)動的語音技術(shù)將越來越多地被開發(fā)用于改善社會，特別是醫(yī)療保健和教育領(lǐng)域，"Ubale 說。 "現(xiàn)在，大多數(shù)現(xiàn)成的功能提供的語音信息非常有限。但在未來，工程師和科學(xué)家將更多地投資于構(gòu)建基礎(chǔ)能力，以應(yīng)對試圖學(xué)習(xí)一門新語言的用戶面臨的特定挑戰(zhàn)，為專業(yè)發(fā)展而重新技能或提升技能，以及克服特定的醫(yī)療需求。"

　　Zagorsek 設(shè)想了四個創(chuàng)新將強(qiáng)勁的領(lǐng)域：主動語音助手、情緒檢測、擴(kuò)展的多語言和重音語言能力，以及增加的貨幣化。

　　"在不久的將來，我們將看到語音助手通過收集有關(guān)上下文和情況的信息，然后主動提出有用的建議并采取行動來發(fā)揮積極作用并提供更大的有用性，"Zagorsek 說。

　　Amin 預(yù)測，隨著客戶繼續(xù)尋求人際互動，同理心將變得更加重要。 "通過異步消息傳遞和客戶語音等先進(jìn)技術(shù)，可以更好地滿足客戶的需求并提供白手套體驗(yàn)，從而產(chǎn)生同理心。"

　　Ziv 也同樣熱情。 "我預(yù)見到實(shí)時語音應(yīng)用程序的興起和持續(xù)發(fā)展勢頭，例如實(shí)時座席輔助，"他說。 "我還看到了與虛擬現(xiàn)實(shí)和語音交互的沉浸式人機(jī)語音的出現(xiàn)，例如，鍵盤和通過手指發(fā)短信消失了。"

　　聲明：版權(quán)所有非合作媒體謝絕轉(zhuǎn)載

　　原文網(wǎng)址：https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

2022年語音技術(shù)行業(yè)現(xiàn)狀之語音引擎

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)