你能想象讓機器人揉面團,搟面皮,包餃子嗎?對機器人來說,操縱衣物、面團等柔軟無堅固形狀的可形變材料一直是個棘手的問題。面團的形狀可以以多種方式變化,而這些變化很難用方程式表示。
此外,從面團中創(chuàng)建新形狀需要多個步驟并使用不同的工具。對于機器人來說,學習具有長步驟序列的操作任務尤其困難,因為學習通常是通過反復試驗完成的,其中有許多可能的選擇。
當?shù)貢r間3月30日,麻省理工學院、卡內(nèi)基梅隆大學和加州大學圣地亞哥分校的研究人員為這種任務提出了一種更好的方法。他們創(chuàng)造了一種“兩階段學習框架”,名為“Teacher”(老師)的算法解決機器人要完成任務所必需的每個步驟,然后它訓練“Student”(學生)機器學習模型去學習關(guān)于何時及如何執(zhí)行任務所需的每項技能的抽象概念,比如用搟面杖。有了這些知識,系統(tǒng)就會推理出如何執(zhí)行技能來完成整個任務。
研究人員認為,這種他們稱之為DiffSkill的方法可以在模擬中執(zhí)行復雜的操作任務,例如切和揉面團,或從砧板周圍收集面團,同時優(yōu)于其他機器學習方法。
除了制作披薩、餃子外,這種方法還可以應用于機器人需要操縱可形變物體的其他環(huán)境中,如為老年人或運動障礙者喂食、洗澡或穿衣的護理機器人。
“這種方法更接近我們?nèi)祟愑媱澬袆拥姆绞?。當一個人執(zhí)行一項長期任務時,我們并沒有寫下所有的細節(jié)。我們有一個更高級別的計劃者,它大致告訴我們在此過程中需要實現(xiàn)哪些階段以及一些中間目標,然后我們執(zhí)行它們,”論文作者之一,MIT計算機科學與人工智能專業(yè)的研究生李云珠說道。
分開來看具體的工作原理。DiffSkill框架中的“Teacher”是一種軌跡優(yōu)化算法,可以解決物體初始狀態(tài)和目標位置很接近的短視界(short-horizon)任務。軌跡優(yōu)化器在模擬現(xiàn)實世界的物理模擬器中工作(稱為可微物理模擬器,它將“Diff”放入“DiffSkill”中)?!癟eacher”算法使用模擬器中的信息來學習面團在每個階段必然如何移動,一次一個,然后輸出這些軌跡。
然后“Student”神經(jīng)網(wǎng)絡學會模仿老師的動作。作為輸入,它使用兩個攝像頭圖像,一個顯示當前狀態(tài)的面團,另一個顯示任務結(jié)束時的面團。神經(jīng)網(wǎng)絡生成一個高級計劃,以確定如何將不同的技能聯(lián)系起來以達到目標。然后,它為每個技能生成特定的、短視界的軌跡,并將命令直接發(fā)送到工具。
研究人員使用這種技術(shù)對三種不同的模擬面團操作任務進行了實驗。在一項任務中,機器人使用抹刀將面團舉到砧板上,然后使用搟面杖將其壓平。在另一個例子中,機器人使用抓手從柜臺上收集面團,將其放在抹刀上,然后將其轉(zhuǎn)移到砧板上。在第三個任務中,機器人用刀將一堆面團切成兩半,然后使用夾具將每一塊面團運送到不同的位置。
“DiffSkill能夠勝過依賴強化學習的流行技術(shù),在強化學習中,機器人通過反復試驗來學習任務。事實上,DiffSkill是唯一能夠成功完成所有三個面團操作任務的方法。有趣的是,我們發(fā)現(xiàn)‘Student’神經(jīng)網(wǎng)絡甚至能夠勝過‘Teacher’算法,”卡內(nèi)基梅隆大學 (CMU) 研究生林興宇說道。
林興宇認為,這個框架為機器人獲得新技能提供了一種新穎的方式,可以將這些技能鏈接起來,以解決更復雜的任務。這些任務超出了以前的機器人系統(tǒng)的能力。
因為他們的方法側(cè)重于控制工具(抹刀、刀、搟面杖等),所以它可以應用于不同的機器人,但前提是它們要使用研究人員定義的特定工具。未來,他們計劃將工具的形狀整合到“Student”網(wǎng)絡的推理中,以便將其應用于其他設備。
研究人員打算通過使用3D數(shù)據(jù)作為輸入來提高DiffSkill的性能,而不是使用難以從模擬傳輸?shù)浆F(xiàn)實世界的2D圖像。他們還希望使神經(jīng)網(wǎng)絡規(guī)劃過程更高效,并收集更多樣的訓練數(shù)據(jù),以增強DiffSkill對新情況的泛化能力。從長遠來看,他們希望將 DiffSkill應用到更多樣化的任務中,包括布料操作。
這項研究由卡內(nèi)基梅隆大學(CMU)研究生林興宇,加州大學圣地亞哥分校研究生黃志奧,麻省理工學院腦與認知科學系認知科學與計算職業(yè)發(fā)展教授Joshua B. Tenenbaum,CMU助理教授David Held,以及MIT-IBM Watson AI Lab的研究科學家 Chuang Gan合作完成。其得到了美國國家科學基金會、LG電子、麻省理工學院-IBM 沃森人工智能實驗室、美國海軍研究辦公室和國防高級研究計劃局的部分支持。
關(guān)鍵詞: 搟面皮包餃子 MITCMU等的研究員讓機器人自己學會了