CTI論壇(ctiforum.com)(編譯/老秦):也許你一直在考慮在你的業(yè)務(wù)中使用智能虛擬助理(IVA)。您希望自動(dòng)化客戶(hù)服務(wù),幫助您的客戶(hù)在您的網(wǎng)站上找到他們想要的內容,或者為您的員工提供工具。在任何一個(gè)搜索引擎上呆上幾分鐘,都會(huì )發(fā)現無(wú)數的供應商說(shuō)他們的產(chǎn)品是“智能的”、“自然的”或者“就像和人說(shuō)話(huà)一樣”;其他人吹噓自己是“真正的會(huì )話(huà)”和“革命”,還有許多其他發(fā)光的描述。當然,你想使用最好的技術(shù),但你怎么知道哪一個(gè)是最好的,甚至哪一個(gè)替代品是好的,足以完成你心目中的工作?
顯然,簡(jiǎn)單地看供應商網(wǎng)站并不是最好的方法。每個(gè)供應商都會(huì )聲稱(chēng)他們的技術(shù)是最好的。看看YouTube的演示和與銷(xiāo)售人員交談也不會(huì )有什么幫助。供應商會(huì )有偏見(jiàn),演示是基于非常仔細策劃的互動(dòng)。隨便試用一個(gè)系統幾分鐘就會(huì )產(chǎn)生誤導性的結果。是否有一個(gè)可靠的,客觀(guān)的方法來(lái)衡量系統的準確性?
其他產(chǎn)品可以與標準度量進(jìn)行比較。我們有每加侖汽車(chē)的英里數,電器的能源消耗量,顯示器的屏幕分辨率。不幸的是,我們還沒(méi)有針對智能虛擬助理的這些指標。即使我們把“最好的”縮小到“最準確的”,主觀(guān)性仍然有很大的空間。
為了可靠地比較系統,我們如何測量智能虛擬助理的精確度?不幸的是,我們沒(méi)有任何官方標準,但這里有一些似乎很有希望的想法。
測量IVAs的方法
讓我們首先說(shuō),任何公平的比較都必須基于廣泛接受的衡量標準和程序。一個(gè)實(shí)際的評估也不能太貴或太費時(shí),所以我們不需要完美,只是一個(gè)足夠好的比較。
首先,這里有一些有前途的策略。
1、系統可能以?xún)煞N不同的方式出錯,因此我們必須同時(shí)衡量這兩種方式。系統可能會(huì )給出錯誤的答案,但也可能無(wú)法給出它應該知道的問(wèn)題的答案。從技術(shù)上講,給出錯誤的答案是不準確的。沒(méi)有給出系統應該知道的答案是調用失敗。在大量的測試問(wèn)題中,我們可以得到整體關(guān)于調用失敗和精確性的分數,這將給我們系統的準確性一個(gè)分數。雖然調用失敗和精確性不是官方標準,但它們被研究人員廣泛接受。
2、一個(gè)較新的指標是敏感性和特異性平均值(SSA)。這是谷歌為其聊天機器人Meena開(kāi)發(fā)的。測試人員查看成對的用戶(hù)查詢(xún)和系統響應,并根據它們的敏感程度和具體程度對響應進(jìn)行評分。“敏感性”的含義是顯而易見(jiàn)的。特異性會(huì )懲罰像“那很好”這樣的一般性回答。像“那很好”這樣含糊不清的回答是數字助理試圖掩蓋其無(wú)知的信號。敏感性和特異性得分相結合,得到一個(gè)總的SSA得分。這一指標的一個(gè)吸引人的特點(diǎn)是,對回答打分的用戶(hù)不必知道正確的答案,他們只需能夠決定答案的“合理性”和“具體性”如何。
3、另一個(gè)值得一提的指標是亞馬遜AlexaPrize中使用的指標。它不能測量準確度;相反,它通過(guò)跟蹤用戶(hù)與應用程序交互的時(shí)間來(lái)衡量應用程序的吸引力。對于像老年伴侶這樣的應用程序來(lái)說(shuō)這可能是一個(gè)有用的指標,老年同伴的目標是讓用戶(hù)參與應用程序,但精度不是一個(gè)主要要求。
評估IVA表現
不僅要使測量標準化,而且評價(jià)也要遵循一個(gè)標準過(guò)程:(1)有可重復的結果;(2)外部變量控制;以及(3)防止游戲結果。一個(gè)很好的例子是2015年著(zhù)名的大眾汽車(chē)排放丑聞,當時(shí)大眾汽車(chē)在測試過(guò)程中關(guān)閉了排放裝置,這樣他們就可以謊報更好的排放評級。他們被抓住了。結果對大眾汽車(chē)不利;其首席執行官因此辭職。
評估過(guò)程的一些最佳做法包括:
1、對同一個(gè)應用程序進(jìn)行跨系統比較,這可以更通俗地稱(chēng)為“比較蘋(píng)果”。比較執行不同應用程序的系統是不公平的,因為一個(gè)應用程序可能比另一個(gè)更難。例如,一個(gè)應用程序中可能有更多的意圖和實(shí)體,這將降低該系統的分數。用于開(kāi)發(fā)應用程序的數據可以是一個(gè)開(kāi)放的公共數據集,就像Clinc開(kāi)發(fā)的數據集一樣,也可以是特定垂直方向上應用程序的內部數據。對于沒(méi)有特定應用程序(比如Alexa或Siri)的泛型助手,會(huì )有一些已發(fā)布的數據,比如我的應用程序中使用的數據。
2、非重疊數據的培訓和測試系統。如果一個(gè)系統是在以后測試的數據上訓練的,那么當各種新的、以前看不見(jiàn)的數據出現時(shí),測試將不能代表實(shí)際的工作條件。這將是一個(gè)游戲系統的例子。
把它們放在一起
那么回到最初的問(wèn)題,如何正確評估智能虛擬助理呢?--下面是我們的一般建議。首先,不要把評估建立在主觀(guān)測試的基礎上。一個(gè)評估,包括幾分鐘的試用演示可能會(huì )非常誤導。第二,使用常見(jiàn)的測量方法,比如調用、精確度和SSA。第三,遵循一個(gè)標準流程:使用相同的數據集進(jìn)行所有比較,并將訓練數據和測試數據分開(kāi)。
遵循這些準則將導致可靠和有意義的比較。將這些信息與其他的需求開(kāi)發(fā)工具、運行時(shí)成本、易維護性結合起來(lái),您就可以成功地部署智能虛擬助理了。
聲明:版權所有 非合作媒體謝絕轉載
作者:Deborah Dahl
原文網(wǎng)址:
https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx