近日,中國科學(xué)院自動(dòng)化研究所深度強化學(xué)習團隊提出大模型驅動(dòng)的機器人長(cháng)序列決策與感知融合的RoboGPT方法,在具身智能測試平臺ALFRED榜單中取得第一名。
RoboGPT方法將大模型常識推理融入環(huán)境感知和探索中,有效避免了無(wú)效信息干擾,提升了復雜開(kāi)放場(chǎng)景下環(huán)境感知的效率和泛化能力,解決了機器人環(huán)境適應性差、缺乏常識的難點(diǎn)。通過(guò)引入環(huán)境實(shí)時(shí)反饋,利用大模型強推理能力實(shí)現環(huán)境自適應的長(cháng)序列任務(wù)分解,突破了機器人長(cháng)序列復雜任務(wù)難以規劃,環(huán)境先決條件難以引入決策的難題。
該方法包含基于LLM的規劃器、重規劃(Re-Plan)和技能(RoboSkill)三個(gè)模塊。在給定任務(wù)指令后,基于LLM的RoboGPT規劃器可將其分解為多個(gè)子目標。RoboSkill 根據子目標執行導航或操作技能,產(chǎn)生與環(huán)境交互的動(dòng)作,并按順序完成所有子目標。如果某個(gè)子目標未完成,Re-Plan模塊會(huì )接收反饋信息,并根據從環(huán)境中接收到的數據生成新的規劃。
具體而言,團隊構建了一批高質(zhì)量的機器人規劃數據,提出RoboGPT機器人規劃大模型,可完成上百種日常任務(wù)的規劃。機器人可根據智能體第一視角圖像獲得深度和分割信息,進(jìn)行視覺(jué)SLAM(Simultaneous Localization and Mapping),得到語(yǔ)義地圖。在導航算法方面,團隊根據語(yǔ)義地圖設計了一種知識引導的小物體探索方法,使得機器人很快地找到目標物體。同時(shí),相比于端到端的學(xué)習類(lèi)方法,該方法易于遷移到其他機器人場(chǎng)景中,甚至是實(shí)體機器人場(chǎng)景,只需對根據第一視角圖像獲得深度和分割信息的模型進(jìn)行場(chǎng)景適應。
RoboGPT方法在ALFRED的Valid Unseen數據和構造的通用任務(wù)Gen. Task的表現如表1所示。相較于目前基于ChatGPT(LLM-Planner)和基于模版的任務(wù)規劃方法(Prompter),RoboGPT方法在任務(wù)執行成功率(SR, Success Rate)和任務(wù)規劃的正確性(HLP ACC, ACCuracy of High-Level instruction task Planning)上都取得了顯著(zhù)的優(yōu)勢。相關(guān)工作在ALFRED的榜單中排名第一,并已整理成研究論文RoboGPT。
ALFRED是由華盛頓大學(xué)、CMU、Nvidia等聯(lián)合創(chuàng )建的具身智能公開(kāi)測試平臺,目前已有60多個(gè)全球知名高校、科研院所和公司在該平臺上進(jìn)行了公開(kāi)測試。榜單提供了7類(lèi)常見(jiàn)的日常指令任務(wù),如“加熱蘋(píng)果放到櫥柜里”,要求機器人具有精準的環(huán)境感知能力和強推理能力,僅僅通過(guò)第一視角的圖像,完成復雜的指令任務(wù)。
榜單鏈接:
https://leaderboard.allenai.org/alfred/submissions/public
論文鏈接:
https://arxiv.org/abs/2311.15649
圖1. ALFRED榜單排名(截至2023年12月25日)
圖2. RoboGPT系統框圖
表1 ALFRED Valid Unseen和通用任務(wù)Gen.Task 實(shí)驗結果
來(lái)源:中國科學(xué)院自動(dòng)化研究所