OpenAI的研究人員在即將發(fā)表的一篇論文《靈巧的手工操作》中描述了一個(gè)系統,該系統使用了一個(gè)強化模型,在這個(gè)模型中,人工智能通過(guò)嘗試和錯誤來(lái)學(xué)習,指導機器人用最先進(jìn)的精度抓取和操作物體。更讓人印象深刻的是,它是完全數字化的,在一個(gè)計算機模擬中訓練的,沒(méi)有提供任何人類(lèi)演示來(lái)學(xué)習。
研究小組寫(xiě)道:“雖然靈巧地操縱物體對人類(lèi)來(lái)說(shuō)是一項基本的日常任務(wù),但對于自主機器人來(lái)說(shuō),這仍是一項挑戰。”“現代機器人通常是為特定任務(wù)而設計的,在受限的環(huán)境中,它們在很大程度上無(wú)法使用復雜的末端執行器……在這項工作中,我們演示了訓練控制策略的方法,這些策略執行手控操作,并將它們部署在一個(gè)物理機器人上。”
那么他們是怎么做到的呢?
研究人員使用MuJoCo物理引擎模擬一個(gè)真實(shí)的機器人可能在其中工作的物理環(huán)境,并用Unity渲染圖像,訓練計算機視覺(jué)模型識別姿勢。但是這個(gè)方法有它的局限性,團隊寫(xiě)道——這個(gè)模擬僅僅是物理設置的一個(gè)“粗略的近似”,這使得它“不太可能”產(chǎn)生能夠很好地轉化為現實(shí)世界的系統。

他們的解決方案是隨機化環(huán)境的各個(gè)方面,比如物理(摩擦、重力、關(guān)節極限、物體尺寸等等)和視覺(jué)外觀(guān)(燈光條件、手和物體的姿態(tài)、材料和紋理)。這既降低了過(guò)度擬合的可能性——當神經(jīng)網(wǎng)絡(luò )學(xué)習訓練數據中的噪聲,對其性能產(chǎn)生負面影響時(shí),就會(huì )出現這種現象——也增加了產(chǎn)生一種算法的機會(huì ),該算法可以根據真實(shí)世界的指尖位置和目標姿態(tài)成功地選擇動(dòng)作。
接下來(lái),研究人員用384臺機器(每個(gè)機器有16個(gè)CPU內核)訓練了這個(gè)模型——一個(gè)周期性的神經(jīng)網(wǎng)絡(luò ),讓它們每小時(shí)產(chǎn)生大約兩年的模擬體驗。在8臺GPU電腦上進(jìn)行優(yōu)化后,他們進(jìn)入了下一個(gè)步驟:訓練一個(gè)卷積神經(jīng)網(wǎng)絡(luò ),該神經(jīng)網(wǎng)絡(luò )可以從三個(gè)模擬相機圖像中預測機器人“手”中的物體位置和方向。

一旦模型被訓練,它就進(jìn)入了驗證測試。研究人員使用了一只“影子靈巧手”,這是一只機械手,有五個(gè)手指,總共有24個(gè)自由度。與此同時(shí),兩套相機——運動(dòng)捕捉相機和RGB相機——作為系統的眼睛,允許它跟蹤物體的旋轉和方向。(雖然這只“影子靈巧手”有觸覺(jué)傳感器,但研究小組只選擇了它的關(guān)節感應能力,用于控制手指的位置。)
在兩個(gè)測試中的第一個(gè),算法的任務(wù)是重新定位一個(gè)標有字母的塊。團隊選擇了一個(gè)隨機的目標,每次人工智能完成時(shí),他們都選擇了一個(gè)新的目標,直到機器人(1)放棄了塊,(2)花了一分鐘多的時(shí)間來(lái)操作塊,或者(3)達到了50個(gè)成功的旋轉。在第二次測試中,該塊用八角形棱鏡交換。
結果呢?這些模型不僅展示了“前所未有”的表現,而且還自然地發(fā)現了在人類(lèi)身上觀(guān)察到的各種抓握類(lèi)型,如三腳架(用拇指、食指和中指的一種抓握)、棱柱式抓握(用拇指和手指相對的一種抓握)和指尖夾握。他們還學(xué)習了如何旋轉和滑動(dòng)機器人的手指,以及如何利用重力、平移和扭轉力將物體放置到想要的位置。
他們寫(xiě)道:“我們的系統不僅能重新發(fā)現人類(lèi)身上已經(jīng)發(fā)現的,還能讓它們更好地適應自身的局限和能力。”
這并不是說(shuō)這是一個(gè)完美的系統。它沒(méi)有被明確訓練來(lái)處理多個(gè)對象——它很難旋轉一個(gè)球形的第三個(gè)物體。在第二次測試中,仿真與真實(shí)機器人之間存在可測量的性能差異。
但最終,研究結果證明了當代深度學(xué)習算法的潛力,研究人員總結道:“(這些)算法可以應用于解決復雜的現實(shí)世界機器人問(wèn)題,而這些問(wèn)題是現有的非基于學(xué)習的方法無(wú)法解決的。”