盡管全球新冠疫情給該行業(yè)帶來(lái)了重大挑戰,但創(chuàng )新和進(jìn)步在2020年仍在繼續。現在,語(yǔ)音引擎和驅動(dòng)它們的技術(shù)似乎準備利用日益偏好和依賴(lài)語(yǔ)音而不斷發(fā)展的商業(yè)和消費者環(huán)境。
ETS的語(yǔ)音和自然語(yǔ)言處理副研究員AbhinavMisra說(shuō),自從深度神經(jīng)網(wǎng)絡(luò )(deep neural networks,DNN)問(wèn)世以來(lái),語(yǔ)音識別引擎的性能有了顯著(zhù)提高,更多的組織和消費者從中受益。
“隨著(zhù)越來(lái)越多的人越來(lái)越多地使用語(yǔ)音助手,企業(yè)正在收集更多的數據,為這些人工智能算法提供素材,并進(jìn)一步提高語(yǔ)音引擎的性能,”他說(shuō)。
Appen人工智能專(zhuān)家高級主管Judith Bishop對此表示同意。
“自動(dòng)語(yǔ)音識別引擎已經(jīng)變得更加強大和通用。主要的引擎現在能夠識別更廣泛的不同年齡段的聲音,包括兒童的聲音,這與成人的聲音有很大的不同,”她說(shuō)。
Bishop補充說(shuō),COVID-19有助于推動(dòng)最近的創(chuàng )新。“這場(chǎng)大流行把重點(diǎn)放在噪音環(huán)境下的語(yǔ)音識別上,過(guò)去一年,處理背景噪音的噪音抑制算法成為一個(gè)重要的焦點(diǎn)。結果,語(yǔ)音不再需要被如此大聲和清晰地引導到近距離的設備上,并且語(yǔ)音現在可以被檢測和理解,即使在某些情況下,說(shuō)話(huà)人正在間接地對設備尋址,例如在準備飯的時(shí)候。這些進(jìn)步進(jìn)一步凸顯了語(yǔ)音引擎如何更接近人類(lèi)交流的自然條件。”
隨著(zhù)亞馬遜(Amazon)、谷歌(Google)和IBM(IBM)等供應商現在從云上提供語(yǔ)音服務(wù),語(yǔ)音引擎也從詞匯有限的固定語(yǔ)法模型發(fā)展到更靈活、更開(kāi)放的系統。
“如今的云語(yǔ)音服務(wù)比傳統的固定語(yǔ)法模式更實(shí)惠。在聯(lián)絡(luò )中心環(huán)境中,高級語(yǔ)音識別的采用也在穩步增加;更多的客戶(hù)可以使用自然語(yǔ)言與虛擬聯(lián)絡(luò )中心座席交談,從而改善了體驗,”最近被Five9收購的InferenceSolutions公司產(chǎn)品副總裁Santosh Kulkarni說(shuō)。
Nuance Communications是這一領(lǐng)域的領(lǐng)導者之一,它可以證明進(jìn)步的步伐是如何加快的,尤其是在醫療領(lǐng)域。
“深度學(xué)習技術(shù)迅速改變了計算機進(jìn)行語(yǔ)音識別的方式。”Nuance的首席研究科學(xué)家FelixWeninger說(shuō):“它使我們能夠為非常具有挑戰性的應用構建語(yǔ)音識別器,例如轉錄醫生和患者之間的對話(huà)。”
許多企業(yè)也在利用尖端的語(yǔ)音技術(shù)增強客戶(hù)對話(huà)的能力。
“我們正在看到一種轉變,即從脆弱的、基于命令的交互式語(yǔ)音應答系統,轉向完全可以使用軟件處理多步驟客戶(hù)查詢(xún)的自然交互式虛擬座席。”Gridspace首席執行官Evan Macmillan表示:“我們也看到了閉環(huán)語(yǔ)音系統,它可以從過(guò)去的對話(huà)中學(xué)習,讓座席們更有幫助,更有效率。這些語(yǔ)音系統處理的實(shí)時(shí)語(yǔ)音音頻量也在不斷增加,這使人們意識到有可能出現更為復雜的語(yǔ)音接口和傳輸模式。”
年度回顧
2020年,一些關(guān)鍵的發(fā)展對語(yǔ)音引擎和相關(guān)技術(shù)產(chǎn)生了影響。
“在2020年,我們看到基于云的語(yǔ)音引擎解決方案越來(lái)越被接受。依賴(lài)于內部部署模型的組織被迫重新考慮其方法和投資,”VerintSystems負責語(yǔ)音和文本分析的副總裁DanielZiv說(shuō)。“利用云中的語(yǔ)音分析可以讓組織快速啟動(dòng)和運行,同時(shí)提供一個(gè)彈性和安全的使用模型,同時(shí)提供一個(gè)有吸引力的訂閱財務(wù)模型。”
在過(guò)去的一年里,為了響應COVID-19和非接觸式服務(wù)的需求,語(yǔ)音引擎也得到了加速采用。
“2020年帶來(lái)了一個(gè)新的緊迫性,以提高語(yǔ)音輔助快速服務(wù)餐廳駕車(chē)通過(guò)效率,”Bishop說(shuō)。
端到端語(yǔ)音識別引擎的出現,得益于谷歌、Facebook、微軟和其他公司更積極的研究,也吸引了大量的注意力。
Misra指出:“使用單一的深層神經(jīng)網(wǎng)絡(luò )將音頻信號直接轉換成字母非常誘人,因為它消除了許多復雜性。”
到2020年,更多的企業(yè)利用會(huì )話(huà)人工智能,推出了智能虛擬座席(IVA)。
Kulkarni說(shuō):“如今,利用最新的無(wú)代碼IVA開(kāi)發(fā)平臺,公司可以在幾分鐘內構建出與消費者智能揚聲器相同的自然語(yǔ)言處理技術(shù)支持的IVA,并在幾天或幾周內將其部署到客戶(hù)聯(lián)絡(luò )中心。”
在過(guò)去的12個(gè)月中,由于冠狀病毒的影響,人工智能支持的語(yǔ)音助理和會(huì )話(huà)系統的革命呈指數級增長(cháng),品牌化的文本到語(yǔ)音變得更加流行。
Read Speaker的首席技術(shù)官Niclas Bergstrom說(shuō):“為了幫助自己從競爭中脫穎而出,各品牌也開(kāi)始嘗試不同的文語(yǔ)轉換說(shuō)話(huà)風(fēng)格,包括用情感化的聲音取代如今語(yǔ)音助理中常見(jiàn)的機器人聲音。”
技術(shù)提供商改進(jìn)了他們的軟件開(kāi)發(fā)工具包(SDKs)中代碼集成的易用性。例如,Amazon在其AlexaSDK中引入了雙語(yǔ)言模式和更多翻譯模式。
人們對聲音克隆的興趣也在增加。Bergstrom解釋說(shuō):“語(yǔ)音克隆允許開(kāi)發(fā)人員提取目標語(yǔ)音的特定特征,例如音調,并將其應用于不同語(yǔ)音的波形。”
展望未來(lái)
對許多語(yǔ)音引擎專(zhuān)家來(lái)說(shuō),未來(lái)是光明的,盡管還有一些挑戰需要克服。
“許多功能將被廣泛應用,以幫助組織更好地支持'在家辦公'模式,同時(shí)繼續提供積極的客戶(hù)體驗。”Ziv預測:“這些功能包括利用語(yǔ)音分析見(jiàn)解優(yōu)化自助服務(wù)渠道的有效性,以較低的成本提供卓越的服務(wù)。”
例如,分析可以幫助確定客戶(hù)打電話(huà)的原因以及持續改進(jìn)客戶(hù)參與的方法。Elektrobit的高級專(zhuān)家VolkerSpringer預計,未來(lái)將有更好的對話(huà)背景跟蹤。
“系統將更好地理解句子的語(yǔ)義,并更準確地將其與用戶(hù)的環(huán)境相匹配,這將最大限度地減少聽(tīng)者的疲勞。系統將允許更復雜的句子和意圖,”他說(shuō)。
Macmillan堅持認為,未來(lái)一年,會(huì )話(huà)座席將協(xié)助、增強和自動(dòng)化更多的語(yǔ)音交互。
他說(shuō):“對于一些大型醫療保健和金融服務(wù)公司,我們可以很容易地將由會(huì )話(huà)語(yǔ)音技術(shù)處理的語(yǔ)音查詢(xún)比例從2%提升到50%。”
Deepgram聯(lián)合創(chuàng )始人兼首席執行官Scott Stephenson預計,今年將有更多的資金用于為座席和客戶(hù)提供語(yǔ)音體驗。
Stephenson補充說(shuō):“與此同時(shí),軟件供應商將積極資助與語(yǔ)音相關(guān)的產(chǎn)品開(kāi)發(fā),以突破噪音,努力成為客戶(hù)體驗技術(shù)領(lǐng)域的下一個(gè)大玩家。”
Bergstrom認為,能夠更好地衡量用戶(hù)所說(shuō)的內容和說(shuō)話(huà)方式的Paralinguistic語(yǔ)音接口也將得到改進(jìn)。
“這對于我們將在未來(lái)幾年開(kāi)始看到的另一項創(chuàng )新非常重要,這項創(chuàng )新將更加注重情感文本到語(yǔ)音的轉換。”他說(shuō):“語(yǔ)音質(zhì)量已經(jīng)存在,但語(yǔ)音提供商需要優(yōu)先考慮情感語(yǔ)音服務(wù),這樣才能提供更好的客戶(hù)體驗。”
聲明:版權所有 非合作媒體謝絕轉載
作者:Erik J.Martin
原文網(wǎng)址:
https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145090