可變腿長、能下樓、走沙坑,數(shù)研院具身四足機(jī)器人控制取得突破

發(fā)布時(shí)間:2023-01-29 21:32:57  |  來源:騰訊網(wǎng)  

機(jī)器之心專欄


(資料圖片僅供參考)

機(jī)器之心編輯部

近日,上海數(shù)字大腦研究院(簡稱 “數(shù)研院”)成功用強(qiáng)化深度學(xué)習(xí)方法,將 Transformer 大模型應(yīng)用于四足機(jī)器人跨地形、跨具身運(yùn)動(dòng)控制,讓不同具身的四足機(jī)器人成功在多種真實(shí)復(fù)雜地形上 “化險(xiǎn)為夷”,如履平地,為自由、自主的運(yùn)動(dòng)控制奠定基礎(chǔ)。相關(guān)成果以兩篇論文的形式發(fā)表在國際機(jī)器人頂級會(huì)議 ICRA 2023 上。(文末附文章鏈接)

四足機(jī)器人運(yùn)動(dòng)控制的發(fā)展現(xiàn)狀

足式機(jī)器人常見的有雙足機(jī)器人和四足機(jī)器人,相比其他類型的機(jī)器人(例如輪式,履帶式),它們有著更好的靈活性和通過性,可以通過更多復(fù)雜地形。因此足式機(jī)器人的運(yùn)動(dòng)控制一直是機(jī)器人領(lǐng)域研究熱點(diǎn)之一,在代替人類巡邏,搜救,故障檢測,服務(wù),偵查等現(xiàn)實(shí)場景中有著較為廣泛的應(yīng)用場景。

足式機(jī)器人的運(yùn)動(dòng)控制大體上可以分為兩類方法。一類是基于傳統(tǒng)的控制方法,例如軌跡優(yōu)化(trajectory optimization)和模型預(yù)測控制(model predictive control)。這類方法往往要求算法設(shè)計(jì)者有著充分的特定領(lǐng)域知識(shí),如控制機(jī)器人的運(yùn)動(dòng)學(xué)方程、地面的形狀、摩擦系數(shù)等。然而,這在復(fù)雜地形中往往是難以實(shí)現(xiàn)的。相比之下,另一類深度強(qiáng)化學(xué)習(xí)方法則更能出色完成通過復(fù)雜地形的任務(wù)。在模擬器中直接訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),再將其遷移到真實(shí)世界中,這種策略稱為 “模擬到真實(shí)的遷移(sim-to-real transfer)”。深度強(qiáng)化學(xué)習(xí)可以在很大程度上減少對特定領(lǐng)域知識(shí)的依賴,且訓(xùn)練出的策略往往表現(xiàn)出更強(qiáng)的魯棒性,因此被認(rèn)為是足式機(jī)器人運(yùn)動(dòng)控制的一種具有前景的方法。

傳統(tǒng)深度學(xué)習(xí)模型的容量有限,難以支持機(jī)器人在更復(fù)雜的地形環(huán)境中的控制,目前為止,大部分強(qiáng)化學(xué)習(xí)算法都只針對一個(gè)固定的機(jī)器人具身(embodiment)進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)訓(xùn)練完成的控制器只能應(yīng)用于一個(gè)機(jī)器人,一旦機(jī)器人的硬件特性發(fā)生改變,其控制器往往需要從頭開始訓(xùn)練。近年來,一些基于強(qiáng)化學(xué)習(xí)方法嘗試為不同具身(例如不同形狀)的機(jī)器人設(shè)計(jì)通用控制器,例如使用模塊化網(wǎng)絡(luò)架構(gòu)、基于機(jī)器人條件的策略、基于圖神經(jīng)網(wǎng)絡(luò)的方法。但部分方法目前僅在仿真環(huán)境中進(jìn)行驗(yàn)證,未在真實(shí)機(jī)器人上驗(yàn)證可行。由于機(jī)器人形態(tài)與控制方法之間復(fù)雜的關(guān)系,設(shè)計(jì)一個(gè)跨具身的機(jī)器人控制器目前還是一個(gè)有挑戰(zhàn)性的問題。

以 Transformer 序列模型為基礎(chǔ)的控制框架 TERT 和 EAT

相比傳統(tǒng)深度學(xué)習(xí)模型,Transformer 序列模型有著更大的模型容量以及更強(qiáng)的泛化性,在自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域的復(fù)雜多任務(wù)上取得了不錯(cuò)的成績。因此,我們探究將 Transformer 模型應(yīng)用于足式機(jī)器人控制的可能性,并提出了針對跨地形四足機(jī)器人運(yùn)動(dòng)控制框架 Terrain Transformer(TERT)和跨具身的四足機(jī)器人運(yùn)動(dòng)控制框架 Embodiment-aware Transformer(EAT)。

圖一:Terrain Transformer 訓(xùn)練框架

如圖一所示,TERT 訓(xùn)練框架包括離線預(yù)訓(xùn)練和在線修正兩個(gè)階段。首先在離線預(yù)訓(xùn)練階段,我們借鑒廣泛應(yīng)用于機(jī)器人控制的特權(quán)學(xué)習(xí)(privileged learning)方法,在模擬器提供特權(quán)信息(如地形信息,物理參數(shù))的情況下使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練一個(gè)教師策略(Teacher Policy),以最大化設(shè)定的獎(jiǎng)勵(lì)函數(shù)。教師策略可以在模擬器中取得近似最優(yōu)的成績,但卻無法在真實(shí)世界直接應(yīng)用。之后,我們使用教師策略和模擬器交互搜集數(shù)據(jù),并訓(xùn)練 Transformer 根據(jù)過往歷史 T 步的觀測、動(dòng)作序列預(yù)測教師動(dòng)作。

通過離線預(yù)訓(xùn)練階段得到的 Transformer 模型雖然可以在教師策略搜集得到的數(shù)據(jù)集上達(dá)到較小的損失函數(shù),但在測試時(shí)卻并不能達(dá)到滿意的效果。這是因?yàn)樵跍y試時(shí) Transformer 輸入中的動(dòng)作序列并不是來自教師策略,而是來自本身 Transformer 之前的輸出動(dòng)作,動(dòng)作序列的不同會(huì)間接導(dǎo)致輸入的觀測序列的不同,從而進(jìn)一步影響算法的性能。為了解決這種由輸入分布不同所帶來的性能影響,我們提出在離線預(yù)訓(xùn)練階段后加入一個(gè)在線修正階段。具體地說,在線修正階段(圖一下方),使用 Transformer 輸出的動(dòng)作和模擬環(huán)境交互,同時(shí)使用教師策略給出目標(biāo)動(dòng)作,之后再訓(xùn)練 Transformer 根據(jù)自己經(jīng)歷過的觀測、動(dòng)作序列作為輸入預(yù)測教師的動(dòng)作。

具有可變前后腿長度以及軀干長度的四足機(jī)器人? ? ?

而對于跨具身的四足機(jī)器人控制,數(shù)研院引入向量 e 表示機(jī)器人具身,e 包括機(jī)器人前小腿長度、后小腿長度與軀干長度等。EAT 通過在模擬器中訓(xùn)練 M 個(gè)不同具身的機(jī)器人控制策略,并使用這 M 個(gè)策略分別搜集對應(yīng)具身下的專家數(shù)據(jù)。為了使得 Transformer 模型能完成多種具身的泛化,每條軌跡還會(huì)包括搜集數(shù)據(jù)的機(jī)器人具身向量 e。之后,EAT 在混合專家數(shù)據(jù)集上訓(xùn)練 Transformer,通過歷史觀測、動(dòng)作以及具身向量 e 預(yù)測下一個(gè)專家動(dòng)作。

四足機(jī)器人真機(jī)實(shí)景實(shí)驗(yàn)

數(shù)研院首先在宇樹的 A1 四足機(jī)器人上對比了 TERT 與其他方法在不同地形上的控制效果,TERT 可以成功通過九種復(fù)雜的地形。相比之下,使用傳統(tǒng)強(qiáng)化學(xué)習(xí)方法控制的機(jī)器人可以在簡單地形,比如上下坡上正常行走,但卻無法通過較難的地形,比如沙坑,下樓梯。

數(shù)研院方法 TERT(上坡)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(上坡)??

數(shù)研院方法 TERT(沙坑)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(沙坑)?

數(shù)研院方法 TERT(下樓梯)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(下樓梯)?

數(shù)研院 TERT 在九種地形上的表現(xiàn)? ?

之后,在可變具身的 Mini Cheetah 機(jī)器人上驗(yàn)證了 EAT 模型和其他方法。EAT 模型可以在前后腿一樣長、前腿比后腿短、前腿比后腿長三種具身類型上完成較好的泛化。

具身 1:前后小腿一樣長

具身 2:前小腿比后小腿短

具身 3:前小腿比后小腿長

使用 EAT 模型的另一個(gè)優(yōu)越之處在于機(jī)器人可以根據(jù)所處環(huán)境的不同變化自身的身體,達(dá)到一種類似進(jìn)化(evolution)的方式。例如,當(dāng)機(jī)器狗發(fā)現(xiàn)正常具身難以下樓梯時(shí),可以選擇更長的軀干、更長的前腿和更短的后腿,最終得以通過樓梯。

未來,數(shù)研院將探索把視覺信息引入 Transformer 模型的控制中,進(jìn)一步實(shí)現(xiàn)決策大模型在更復(fù)雜多樣的環(huán)境上的魯棒控制。

兩篇中稿 ICRA 2023 的論文鏈接如下,感興趣的小伙伴可以進(jìn)一步了解:

1.Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer:https://arxiv.org/abs/2212.07740

2.Multi-embodiment Legged Robot Control as a Sequence Modeling Problem:http://arxiv.org/abs/2212.09078

關(guān)鍵詞: 可變腿長、能下樓、走沙坑 數(shù)研院具身四足機(jī)器人控制取得突破 人工智能

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com