老秦夜譯

　　CTI論壇(ctiforum.com)（編譯/老秦）:語音引擎在過去幾年中經(jīng)歷的轉變簡直是驚人的，這在很大程度上歸功于人工智能等重要領域的進步以及準確性、性能和規(guī)模的提高。

　　盡管全球新冠疫情給該行業(yè)帶來了重大挑戰(zhàn)，但創(chuàng)新和進步在2020年仍在繼續(xù)�，F(xiàn)在，語音引擎和驅動它們的技術似乎準備利用日益偏好和依賴語音而不斷發(fā)展的商業(yè)和消費者環(huán)境。

　　ETS的語音和自然語言處理副研究員AbhinavMisra說，自從深度神經(jīng)網(wǎng)絡（deep neural networks，DNN）問世以來，語音識別引擎的性能有了顯著提高，更多的組織和消費者從中受益。

　　“隨著越來越多的人越來越多地使用語音助手，企業(yè)正在收集更多的數(shù)據(jù)，為這些人工智能算法提供素材，并進一步提高語音引擎的性能，”他說。

　　Appen人工智能專家高級主管Judith Bishop對此表示同意。

　　“自動語音識別引擎已經(jīng)變得更加強大和通用。主要的引擎現(xiàn)在能夠識別更廣泛的不同年齡段的聲音，包括兒童的聲音，這與成人的聲音有很大的不同，”她說。

　　Bishop補充說，COVID-19有助于推動最近的創(chuàng)新。“這場大流行把重點放在噪音環(huán)境下的語音識別上，過去一年，處理背景噪音的噪音抑制算法成為一個重要的焦點。結果，語音不再需要被如此大聲和清晰地引導到近距離的設備上，并且語音現(xiàn)在可以被檢測和理解，即使在某些情況下，說話人正在間接地對設備尋址，例如在準備飯的時候。這些進步進一步凸顯了語音引擎如何更接近人類交流的自然條件。”

　　隨著亞馬遜（Amazon）、谷歌（Google）和IBM（IBM）等供應商現(xiàn)在從云上提供語音服務，語音引擎也從詞匯有限的固定語法模型發(fā)展到更靈活、更開放的系統(tǒng)。

　　“如今的云語音服務比傳統(tǒng)的固定語法模式更實惠。在聯(lián)絡中心環(huán)境中，高級語音識別的采用也在穩(wěn)步增加；更多的客戶可以使用自然語言與虛擬聯(lián)絡中心座席交談，從而改善了體驗，”最近被Five9收購的InferenceSolutions公司產(chǎn)品副總裁Santosh Kulkarni說。

　　Nuance Communications是這一領域的領導者之一，它可以證明進步的步伐是如何加快的，尤其是在醫(yī)療領域。

　　“深度學習技術迅速改變了計算機進行語音識別的方式。”Nuance的首席研究科學家FelixWeninger說：“它使我們能夠為非常具有挑戰(zhàn)性的應用構建語音識別器，例如轉錄醫(yī)生和患者之間的對話。”

　　許多企業(yè)也在利用尖端的語音技術增強客戶對話的能力。

　　“我們正在看到一種轉變，即從脆弱的、基于命令的交互式語音應答系統(tǒng)，轉向完全可以使用軟件處理多步驟客戶查詢的自然交互式虛擬座席。”Gridspace首席執(zhí)行官Evan Macmillan表示：“我們也看到了閉環(huán)語音系統(tǒng)，它可以從過去的對話中學習，讓座席們更有幫助，更有效率。這些語音系統(tǒng)處理的實時語音音頻量也在不斷增加，這使人們意識到有可能出現(xiàn)更為復雜的語音接口和傳輸模式。”

　　年度回顧

　　2020年，一些關鍵的發(fā)展對語音引擎和相關技術產(chǎn)生了影響。

　　“在2020年，我們看到基于云的語音引擎解決方案越來越被接受。依賴于內(nèi)部部署模型的組織被迫重新考慮其方法和投資，”VerintSystems負責語音和文本分析的副總裁DanielZiv說。“利用云中的語音分析可以讓組織快速啟動和運行，同時提供一個彈性和安全的使用模型，同時提供一個有吸引力的訂閱財務模型。”

　　在過去的一年里，為了響應COVID-19和非接觸式服務的需求，語音引擎也得到了加速采用。

　　“2020年帶來了一個新的緊迫性，以提高語音輔助快速服務餐廳駕車通過效率，”Bishop說。

　　端到端語音識別引擎的出現(xiàn)，得益于谷歌、Facebook、微軟和其他公司更積極的研究，也吸引了大量的注意力。

　　Misra指出：“使用單一的深層神經(jīng)網(wǎng)絡將音頻信號直接轉換成字母非常誘人，因為它消除了許多復雜性。”

　　到2020年，更多的企業(yè)利用會話人工智能，推出了智能虛擬座席（IVA）。

　　Kulkarni說：“如今，利用最新的無代碼IVA開發(fā)平臺，公司可以在幾分鐘內(nèi)構建出與消費者智能揚聲器相同的自然語言處理技術支持的IVA，并在幾天或幾周內(nèi)將其部署到客戶聯(lián)絡中心。”

　　在過去的12個月中，由于冠狀病毒的影響，人工智能支持的語音助理和會話系統(tǒng)的革命呈指數(shù)級增長，品牌化的文本到語音變得更加流行。

　　Read Speaker的首席技術官Niclas Bergstrom說：“為了幫助自己從競爭中脫穎而出，各品牌也開始嘗試不同的文語轉換說話風格，包括用情感化的聲音取代如今語音助理中常見的機器人聲音。”

　　技術提供商改進了他們的軟件開發(fā)工具包（SDKs）中代碼集成的易用性。例如，Amazon在其AlexaSDK中引入了雙語言模式和更多翻譯模式。

　　人們對聲音克隆的興趣也在增加。Bergstrom解釋說：“語音克隆允許開發(fā)人員提取目標語音的特定特征，例如音調(diào)，并將其應用于不同語音的波形。”

　　展望未來

　　對許多語音引擎專家來說，未來是光明的，盡管還有一些挑戰(zhàn)需要克服。

　　“許多功能將被廣泛應用，以幫助組織更好地支持'在家辦公'模式，同時繼續(xù)提供積極的客戶體驗。”Ziv預測：“這些功能包括利用語音分析見解優(yōu)化自助服務渠道的有效性，以較低的成本提供卓越的服務。”

　　例如，分析可以幫助確定客戶打電話的原因以及持續(xù)改進客戶參與的方法。Elektrobit的高級專家VolkerSpringer預計，未來將有更好的對話背景跟蹤。

　　“系統(tǒng)將更好地理解句子的語義，并更準確地將其與用戶的環(huán)境相匹配，這將最大限度地減少聽者的疲勞。系統(tǒng)將允許更復雜的句子和意圖，”他說。

　　Macmillan堅持認為，未來一年，會話座席將協(xié)助、增強和自動化更多的語音交互。

　　他說：“對于一些大型醫(yī)療保健和金融服務公司，我們可以很容易地將由會話語音技術處理的語音查詢比例從2%提升到50%。”

　　Deepgram聯(lián)合創(chuàng)始人兼首席執(zhí)行官Scott Stephenson預計，今年將有更多的資金用于為座席和客戶提供語音體驗。

　　Stephenson補充說：“與此同時，軟件供應商將積極資助與語音相關的產(chǎn)品開發(fā)，以突破噪音，努力成為客戶體驗技術領域的下一個大玩家。”

　　Bergstrom認為，能夠更好地衡量用戶所說的內(nèi)容和說話方式的Paralinguistic語音接口也將得到改進。

　　“這對于我們將在未來幾年開始看到的另一項創(chuàng)新非常重要，這項創(chuàng)新將更加注重情感文本到語音的轉換。”他說：“語音質(zhì)量已經(jīng)存在，但語音提供商需要優(yōu)先考慮情感語音服務，這樣才能提供更好的客戶體驗。”

　　作者：Erik J.Martin

　　原文網(wǎng)址：

　　https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145090

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

2021年語音技術產(chǎn)業(yè)狀況——語音引擎的現(xiàn)狀

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)