CTI論壇(ctiforum.com) (編譯/老秦): 語(yǔ)音供應商正在探索新的途徑來(lái)擴展其開(kāi)發(fā)工具的使用。增強的建模精度,改進(jìn)的后端集成,對其他接口的擴展以及更開(kāi)放的系統是2019年的重點(diǎn)領(lǐng)域。2020年的重點(diǎn)是標準接口的開(kāi)發(fā)和可移植性的提高。
年度回顧
在構建解決方案時(shí),語(yǔ)音供應商致力于為用戶(hù)提供公司應用程序的直觀(guān)界面。亞馬遜于6月份宣布的Alexa演示語(yǔ)言就是一種用于用戶(hù)界面設計的工具集。它具有技能個(gè)性化功能,使開(kāi)發(fā)人員可以使用Alexa應用程序捕獲的語(yǔ)音配置文件來(lái)創(chuàng )建個(gè)性化技能。語(yǔ)音配置文件可解決首選項,記住設置并區分用戶(hù)。
改善語(yǔ)音識別是人們持續關(guān)注的領(lǐng)域。十月份,亞馬遜在其Alexa技能套件中添加了三套新工具。此開(kāi)發(fā)工具包可幫助公司建立自助服務(wù)應用程序。其中兩個(gè)功能是"自然語(yǔ)言理解(NLU)評估工具"和"話(huà)語(yǔ)沖突檢測",旨在提高語(yǔ)音模型的準確性。前者測試成批的話(huà)語(yǔ),并將語(yǔ)音應用程序的自然語(yǔ)言處理(NLP)模型對它們的解釋與期望進(jìn)行比較。為了提高結果質(zhì)量,NLU評估工具依賴(lài)于消費者通常說(shuō)的命令,而不是由交互模型構建的樣本話(huà)語(yǔ)。結果,系統通過(guò)識別有問(wèn)題的話(huà)語(yǔ)來(lái)隔離訓練區域。該工具還支持回歸測試,允許開(kāi)發(fā)人員在向語(yǔ)音應用添加新功能后創(chuàng )建并運行評估。
NLU評估工具使用生產(chǎn)中的數據以匿名的高頻現場(chǎng)話(huà)語(yǔ)進(jìn)行測量,該數據旨在幫助調整對語(yǔ)音模型所做的任何更改的準確性。
話(huà)語(yǔ)沖突檢測功能可以檢測偶然映射到多個(gè)意圖的話(huà)語(yǔ),這是可能會(huì )降低NLP模型準確性的一個(gè)因素。該功能會(huì )在構建每個(gè)模型時(shí)自動(dòng)運行,并且可以在發(fā)布應用程序的第一個(gè)版本之前使用,也可以隨著(zhù)時(shí)間的推移添加意圖而使用。
除了前端開(kāi)發(fā)之外,在過(guò)去幾個(gè)月中,還強調了與后臺業(yè)務(wù)應用程序的集成。9月,Nuance Communications擴展了Nuance智能互動(dòng)平臺的功能,該平臺在市場(chǎng)營(yíng)銷(xiāo)業(yè)務(wù)流程中增加了語(yǔ)音功能。開(kāi)發(fā)環(huán)境現在具有連接到:
- 消息服務(wù),以便公司可以跨多個(gè)渠道自動(dòng)化和改善人工協(xié)助的客戶(hù)參與度;
- 座席AI服務(wù),旨在為座席和主管提供相關(guān)的實(shí)時(shí)客戶(hù)信息;
- 安全和生物識別服務(wù),以改進(jìn)身份驗證并防止欺詐;
- 后端集成,因此該平臺可與提供所需信息的第三方認知引擎和數據源一起使用。
數據分析已成為第三方開(kāi)發(fā)人員關(guān)注的另一個(gè)領(lǐng)域。亞馬遜增加了一個(gè)Get Metrics API,該API與第三方數據聚合平臺一起使用,允許開(kāi)發(fā)人員評估各種指標,例如唯一客戶(hù)。它還支持創(chuàng )建監視器,警報和儀表板,以突出可能影響客戶(hù)參與度的更改。
語(yǔ)音開(kāi)發(fā)平臺傳統上具有不同程度的開(kāi)放性。例如,蘋(píng)果公司一直致力于將其系統與自己的解決方案聯(lián)系在一起,這給開(kāi)發(fā)人員使用替代產(chǎn)品帶來(lái)了挑戰。十月份,供應商通過(guò)允許Siri使用第三方應用程序來(lái)打開(kāi)其系統。用戶(hù)可以調用第三方應用程序(如WhatsApp)來(lái)代替Apple解決方案(如其自己的Messages應用程序)。但是,第三方將需要將該功能添加到其軟件中。
展望未來(lái)
對于語(yǔ)音開(kāi)發(fā)人員而言,可移植性一直是一項長(cháng)期挑戰。"語(yǔ)音應用程序開(kāi)發(fā)人員發(fā)現,每當他們將軟件從一個(gè)語(yǔ)音引擎轉移到另一個(gè)語(yǔ)音引擎時(shí),他們都必須重寫(xiě)軟件的大部分內容,"Conversational Technologies負責人,萬(wàn)維網(wǎng)聯(lián)盟多模式交互工作組主席Deborah Dahl指出。
可移植性涉及許多問(wèn)題。舊版系統旨在在數據中心的服務(wù)器上運行。許多新系統具有云優(yōu)先設計。將軟件從一種遷移到另一種是一項復雜的工作。Nuance的智能參與平臺具有與云無(wú)關(guān)的靈活性,允許組織在Nuance的托管,公共和私有云中部署相同的解決方案。
設備支持是另一個(gè)重點(diǎn)領(lǐng)域。Nuance全渠道解決方案高級副總裁Tony Lorentzen表示:"我們將繼續看到語(yǔ)音成為新界面,越來(lái)越多的設備將啟用語(yǔ)音功能。"
然后,這些解決方案必須與傳統解決方案集成。亞馬遜的Alexa演示語(yǔ)言使開(kāi)發(fā)人員可以為帶有屏幕的設備(例如臺式機和筆記本電腦)創(chuàng )建Alexa技能。
另一個(gè)可移植性問(wèn)題是將軟件從一個(gè)系統遷移到另一個(gè)系統。從歷史上看,市場(chǎng)缺乏標準接口,因此企業(yè)和第三方每次使用不同的語(yǔ)音引擎時(shí)都必須完成共同的工作,例如分配存儲。
十月份,Nvidia推出了Jarvis,這是一種多模式AI軟件開(kāi)發(fā)套件,該套件將語(yǔ)音,視覺(jué)和其他傳感器整合到一個(gè)系統中。該工具支持用于構建,訓練和部署GPU加速的人工智能系統的工作流,該系統可以結合手勢和眼睛運動(dòng)等視覺(jué)提示以及語(yǔ)音來(lái)建立上下文。
9月,亞馬遜牽頭成立了語(yǔ)音互操作性計劃小組,這是一個(gè)創(chuàng )建標準語(yǔ)音開(kāi)發(fā)接口的計劃。該小組設定了以下四個(gè)目標:
- 開(kāi)發(fā)與其他解決方案一起使用的語(yǔ)音服務(wù),同時(shí)保護客戶(hù)的隱私和安全;
- 構建語(yǔ)音功能的設備,通過(guò)多個(gè)同時(shí)的喚醒詞來(lái)促進(jìn)選擇和靈活性;
- 發(fā)布使更容易在單個(gè)產(chǎn)品上集成多個(gè)語(yǔ)音服務(wù)的技術(shù)和解決方案;
- 加速機器學(xué)習和對話(huà)式AI研究,以改善語(yǔ)音服務(wù)的廣度,質(zhì)量和互操作性。
包括百度,微軟,Salesforce.com和Verizon在內的30多家公司支持這項工作。蘋(píng)果和谷歌是缺席者。該小組的第一批成果有望在2020年到來(lái)。
聲明:版權所有 非合作媒體謝絕轉載
作者:Paul Korzeniowski
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Developer-Platforms-139108.aspx