但過(guò)于頻繁的視頻會(huì )議,讓一些人產(chǎn)生了奇怪的想法并將其付諸實(shí)踐。最近,一位名為 馬特 · 里德(Matt Reed)的工程師,就成功開(kāi)發(fā)出了代替自己參加 ZOOM 視頻會(huì )議的 AI。
乍看之下好像還挺像這么一回事兒的。

(來(lái)源:馬特 · 里德)
而且這個(gè)視頻會(huì )議 AI 不是只有畫(huà)面而已,里德還為它設計了簡(jiǎn)單的語(yǔ)音互動(dòng)功能,可用以接收你的領(lǐng)導或者同事所說(shuō)的話(huà),然后還能自動(dòng)說(shuō)出你所編寫(xiě)的內容,打造出和諧的會(huì )議互動(dòng)氛圍。
那么,這個(gè)機器人具體是如何實(shí)現的?
為了打造它,里德首先通過(guò) Quicktime 錄制了自己的視頻圖像,包含幾個(gè)常用的視頻會(huì )議表情,例如微笑,擺動(dòng)頭部等。當這些畫(huà)面循環(huán)播放時(shí),仿佛就是一個(gè)克隆版的自己。
然后是配置語(yǔ)音功能。基于 Artyom.js 這一語(yǔ)音識別和文本轉語(yǔ)音的開(kāi)源庫,他構建了一個(gè)自定義 HTML Web 應用程序,可以實(shí)現對麥克風(fēng)傳入的音頻進(jìn)行語(yǔ)音識別和響應提示。
這個(gè)庫的優(yōu)點(diǎn)在于,不同于 Alexa 或 Siri 必須使用喚醒詞才能說(shuō)話(huà),它只需要聽(tīng)到 “How are you”“Are you OK” 之類(lèi)的命令就能觸發(fā)下一步回應,比如循環(huán)表情靜止的圖像或者說(shuō)出回復。
你可以將里德該步驟的創(chuàng )作理解為聊天機器人或 Alexa 語(yǔ)音技能。聊天機器人的原理就是經(jīng)過(guò)編程,可以理解某些輸入,并根據這些關(guān)鍵字運行命令以給出一些書(shū)面響應。但是由于人類(lèi)語(yǔ)言的自然可變性,聊天機器人和里德的 Zoombot 還是蠻容易出錯的,畢竟它們都沒(méi)有學(xué)會(huì )人類(lèi)隨機應變的技能。

(來(lái)源:馬特 · 里德)
最后,里德通過(guò)軟件 ManyCam 創(chuàng )建虛擬網(wǎng)絡(luò )攝像頭,再將 Zoom 攝像頭設置為 ManyCam 虛擬網(wǎng)絡(luò )攝像頭,然后打開(kāi)揚聲器,這個(gè) Zoombot 就可以開(kāi)始上班了!
現在,里德已經(jīng)將他的具體教程發(fā)表在了 GitHub 上,而且廣受關(guān)注。地址詳見(jiàn):https://github.com/mcreed/zoombot。或許你也有興趣試一試。
(來(lái)源:馬特 · 里德)
盡管這項發(fā)明看起來(lái)頗具無(wú)厘頭色彩,因為在實(shí)際的使用過(guò)程中,它和真人參會(huì )的反應還是有比較多的區別,例如你能通過(guò)眨眼的頻次察覺(jué)出它并非真人(目前用來(lái)識別 DeepFake 視頻的方法之一就包括觀(guān)察眨眼頻率),但里德確實(shí)展示了這樣的一種需求和可能性,原來(lái)視頻會(huì )議工具還能這么玩。
畢竟,當里德在真實(shí)的視頻會(huì )議中使用他的 Zoombot 時(shí),確實(shí)給已經(jīng)對視頻會(huì )議日益麻木的同事們帶來(lái)了很多歡樂(lè )。
或許有一天這樣詭異的景象真的會(huì )出現:打開(kāi)一個(gè)視頻會(huì )議,可能參加的全是機器替身。