CTI論壇(ctiforum.com) (編譯/老秦): 隨著(zhù)語(yǔ)音服務(wù)變得無(wú)處不在,對它們的依賴(lài)帶來(lái)了更大的壓力,以提供與人類(lèi)和非人類(lèi)的無(wú)縫和準確的通信。例如,在幾年前,誰(shuí)會(huì )想到對特定汽車(chē)的滿(mǎn)意度可能取決于其語(yǔ)音技術(shù)的質(zhì)量?

語(yǔ)音技術(shù)已經(jīng)從物理存在(嵌入設備、本地應用程序和聯(lián)絡(luò )中心的交互式語(yǔ)音響應等平臺)發(fā)展為云交付,在某些用例中,是部分嵌入和部分云。 Opus Research 創(chuàng )造了"對話(huà)云"一詞來(lái)認識到這一現實(shí),同時(shí)指出聯(lián)絡(luò )中心即服務(wù) (CCaaS) 和統一通信即服務(wù) (UCaaS) 等術(shù)語(yǔ)并不能解決多個(gè)聯(lián)絡(luò )中心甚至通信都需要的服務(wù)。 Opus 將對話(huà)云描述為結合了呼叫處理、語(yǔ)音處理(自動(dòng)語(yǔ)音識別和文本到語(yǔ)音渲染)、語(yǔ)音和文本分析以及多種認知資源的產(chǎn)品。
正如我在 2020 年 2 月于"語(yǔ)音識別終于成熟,現在怎么辦?"中指出的那樣,近年來(lái),技術(shù)專(zhuān)家傾向于忽視語(yǔ)音技術(shù),因為它們是通過(guò) APIs 交付的,而不是嵌入到應用程序中。但他們忽視了 Opus Research 認識到的一點(diǎn),就是人工智能和數據注入資源在對話(huà)云中的混合導致了語(yǔ)音能力的飛躍,相比之下,摩爾定律看起來(lái)微不足道。
對話(huà)云不一定限于聯(lián)絡(luò )中心或特定的語(yǔ)音界面;它可以是組織和設備的混合體。在云之前,語(yǔ)音是在組織內的孤島中維護的。不久前,將經(jīng)過(guò)良好調整的語(yǔ)音識別器模型復制到同一組織內的不同數據中心是一項艱巨的任務(wù),而混合來(lái)自不同語(yǔ)音應用程序的語(yǔ)音模型是不可能的。借助對話(huà)云,想象一個(gè)醫療保健組織,其中供應商使用聽(tīng)寫(xiě),其管理組織(包括聯(lián)絡(luò )中心和第三方支付公司)受益于醫療保健程序、藥品名稱(chēng)、患者姓名等的語(yǔ)音調整。借助 AI 調音功能,使用語(yǔ)音界面突然比使用鍵盤(pán)更快、更方便。
使用對話(huà)云,可以創(chuàng )建、調整和訪(fǎng)問(wèn)幾乎無(wú)限數量的用例。回到汽車(chē),制造商過(guò)去常常秘密開(kāi)發(fā)新產(chǎn)品,并試圖盡可能長(cháng)時(shí)間地向競爭對手隱瞞細節。但在某個(gè)時(shí)候,那個(gè)"秘密小發(fā)明"變成了一種商品。汽車(chē)研究中心經(jīng)常在其對未來(lái)汽車(chē)能力的財務(wù)和人力資源限制方面的預測前言。因此,從 2014 年開(kāi)始,制造商從專(zhuān)有的語(yǔ)音信息娛樂(lè )轉向 Apple CarPlay,然后是 Android Auto 和 Amazon Alexa,也就不足為奇了。
語(yǔ)音支持由駕駛員控制的一切的下一步工作正在進(jìn)行中,對話(huà)云正在為其提供動(dòng)力。制造商目前正在為接口的硬件進(jìn)行競爭,但正如我們在許多其他汽車(chē)開(kāi)發(fā)中看到的那樣,它很可能遲早會(huì )成為一種商品。
您是否認為這種對話(huà)云聽(tīng)起來(lái)像是最近的語(yǔ)音技術(shù)進(jìn)步,看起來(lái)像魔術(shù)一樣,并且只需跨越很小的技術(shù)障礙即可到達?
再想想。
必須考慮保護個(gè)人身份信息 (PII)、支付卡行業(yè) (PCI) 信息等。現有法規(例如 GDPR)暗示需要為不希望錄制音頻的用戶(hù)提供選擇退出,但如果組織選擇不允許錄制其輸入以用于調整目的,那么他們是否應該允許客戶(hù)使用語(yǔ)音服務(wù)?
一些對話(huà)式云提供商組織當前的工作重點(diǎn)是消除用戶(hù)記錄的歧義,足以滿(mǎn)足隱私要求--這意味著(zhù)合規性和最終用戶(hù)的期望。它還需要有效地清理/屏蔽信息,例如支付卡數據和 PII。所有這一切都可能導致成立一個(gè)獨立的審計委員會(huì ),該委員會(huì )將在消費者選擇購買(mǎi)或使用哪些產(chǎn)品和服務(wù)時(shí)獲得批準印章,就像今天的 PCI 合規性推動(dòng)組織是否可以接受現金以外的付款一樣。
在語(yǔ)音技術(shù)領(lǐng)域,我們現在的技術(shù)發(fā)展速度太快,人員、流程和法規都跟不上。一些深入的思考將是必要的,以防止不得不進(jìn)行重大的課程更正。語(yǔ)音技術(shù)確實(shí)進(jìn)入了一個(gè)模糊的階段。
聲明:版權所有 非合作媒體謝絕轉載
作者:Kevin Brown
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Columns/Inside-Speech/The-Conversational-Cloud-Promises-Breakthroughs-and-Plenty-of-Complexity-153831.aspx