自蘋(píng)果iPhone 4S內置語(yǔ)音助手Siri以來(lái),語(yǔ)音識別技術(shù)近年來(lái)經(jīng)歷了前所未有的繁榮。穿戴式設備、智能家居和車(chē)載設備的興起,更是將語(yǔ)音識別技推到應用的臺前。語(yǔ)言的創(chuàng )造原本就是人類(lèi)歷史的一個(gè)拐點(diǎn),而當將語(yǔ)言與科技結合時(shí),所謂的人機交互的革命史又翻開(kāi)了新篇章。
《Her》的啟示:所謂的語(yǔ)音助手只是用來(lái)耳提面命的嗎?
像在國內,目前除了手機內自帶的語(yǔ)音助手,不少第三方語(yǔ)音助手應用也如雨后春筍般涌現,譬如訊飛語(yǔ)點(diǎn)、百度語(yǔ)音助手、搜狗語(yǔ)音助手、蟲(chóng)洞語(yǔ)音助手、智能360語(yǔ)音助手等。這項曾沉寂幾十年的雞肋技術(shù)之所以如今風(fēng)頭正旺,原因無(wú)非是搭上了移動(dòng)互聯(lián)網(wǎng)的順風(fēng)車(chē),從而滿(mǎn)足了語(yǔ)音技術(shù)普及更廣泛所需的兩件事情:更好、更方便的應用和主要使用語(yǔ)音的生活場(chǎng)景。
初次使用Siri或訊飛旗下的“靈犀語(yǔ)音助手”的用戶(hù)都會(huì )對這種新的人機交互方式感到很新奇,不僅可以通過(guò)語(yǔ)音搜索內容、查詢(xún)信息,還可以聊天解悶、講故事、唱歌,真可謂是得力的小助手。
正好,最近筆者重溫了一部講述人機交互的電影《Her》,這幾乎構建了人機語(yǔ)音交互的一個(gè)非常理想化的境界。片中女主角Samantha(人工智能系統)沒(méi)有身體,只能發(fā)出聲音。表面上看,這只是一個(gè)具有升級版的的語(yǔ)音助手。實(shí)際上,與目前的語(yǔ)音助手們相比,其又具備了以下幾個(gè)進(jìn)階點(diǎn):
1、對話(huà)交互。雖然你可能反駁說(shuō),如今的語(yǔ)音助手也能進(jìn)行對話(huà),但只要一體驗就會(huì )知道那只不過(guò)是“講話(huà)”而已,用戶(hù)一聽(tīng)就能感覺(jué)到機械感太強、體驗太差。實(shí)際上,目前參與對話(huà)的人與機之間的地位懸殊太大,很多語(yǔ)音助手是作為人類(lèi)任務(wù)助手、被調戲助手的角色出現的。而對話(huà)的話(huà),則講究的是兩個(gè)主體之間關(guān)系的平等性。
2、十分流暢的情感流露。倘若未來(lái)的人工智能真的以“與人類(lèi)無(wú)異”為目標,那么最應該在乎的是它能否讀懂人類(lèi)的情感并給用戶(hù)人類(lèi)般的反饋。影片中,Samantha和男一號Theodor交談、戀愛(ài),最終她還憑借其飛快的進(jìn)化速度與數千個(gè)人進(jìn)行交談,同時(shí)與幾百人維持著(zhù)浪漫的戀愛(ài)關(guān)系,將Theodore無(wú)情地拋在身后。機器的不斷進(jìn)化注入了Samantha超乎尋常的情感靈魂。
而在現實(shí)生活中,機器的冷冰冰已司空見(jiàn)慣。人類(lèi)飽含感情、追求自我,每個(gè)人的獨特性構成了他自己的整個(gè)世界;而機器的本質(zhì)則是通過(guò)無(wú)限復制、并行計算來(lái)追求效率最大化。這個(gè)不可調和的矛盾或許只能寄托未來(lái),未來(lái)出現像Samantha一樣的高級人工智能。
無(wú)縫的語(yǔ)音交互境界有多難?
從技術(shù)上講,要達到未來(lái)無(wú)縫的語(yǔ)音交互境界還相當難:
雖然近年來(lái)語(yǔ)音技術(shù)門(mén)檻逐漸降低,但不可否認的是,語(yǔ)音技術(shù)在人機交互中的尷尬局面。比如語(yǔ)音識別的正確率,其在實(shí)際應用中依然不夠“聽(tīng)話(huà)”。比如,人說(shuō)話(huà)時(shí)單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調、音量和發(fā)音速度等;比如環(huán)境噪聲和干擾對語(yǔ)音識別有嚴重影響,致使識別率低。
有業(yè)內人士也對此坦承,語(yǔ)音識別的遺憾是再努力做也做不到百分之百。這無(wú)疑是整體語(yǔ)音技術(shù)應用中的一個(gè)最大痛點(diǎn)。
這里存在一對天然的矛盾:人的本性是傾向于用非精確的信息,因為其傳輸量更大,更方便。然而,機器卻需要用精確信息來(lái)處理才能讓識別和自然語(yǔ)言處理更準確。所以說(shuō),一家相對專(zhuān)業(yè)公司的語(yǔ)音識別可以做到90%就已經(jīng)不錯了。
從目前人機交互的形態(tài)而言,顯然,用戶(hù)還是更偏向于直接能產(chǎn)生觸感的手動(dòng)式人機交互。蘋(píng)果近日在iOS7.1的升級當中也對語(yǔ)音助手Siri作出的升級亦直接在觸控方面做出了調整,在Siri界面當中,具體實(shí)現方式類(lèi)似于目前在微信當中的語(yǔ)音交流,說(shuō)話(huà)前按住Home鍵不放,在說(shuō)話(huà)完畢后放下Home鍵即可手動(dòng)控制輸入識別。蘋(píng)果未單獨再對聲音方面做出調整,畢竟比起語(yǔ)音,手動(dòng)更具有實(shí)體存在感,而且目前在語(yǔ)音交互上不斷推進(jìn)會(huì )大幅增加用戶(hù)認知負擔。
未來(lái),要想達到無(wú)縫語(yǔ)音交互的技術(shù)奇點(diǎn),必須,不是更多地發(fā)展真正的人工智能,更多地模仿人類(lèi)的智能而非模仿人類(lèi)的行為或聲音。或許,將類(lèi)似一大堆的神經(jīng)元細胞注入機器是人工智能的爆發(fā)點(diǎn)。這不是天方夜譚,真的有人已經(jīng)在做這件事了。據悉,牛津大學(xué)人類(lèi)未來(lái)研究所近日發(fā)布了一份報告,便闡述了向機器上傳意識的技術(shù)要求。“唯有生物才具有意識”的觀(guān)念正將被擊得粉碎!