| 1 | 1/1 | 返回列表 |
| 查看: 733 | 回復(fù): 0 | |||
BFT驛站新蟲 (小有名氣)
|
[交流]
Franka助力GraspMolmo研究,實現(xiàn)可泛化任務(wù)導(dǎo)向抓取的關(guān)鍵突破
|
|
研究背景: 傳統(tǒng)機器人抓取技術(shù)多依賴物體幾何特征,僅關(guān)注抓取穩(wěn)定性,卻忽視了任務(wù)具體需求。例如,同一把刀在“切菜”與“安全傳遞”任務(wù)中需要完全不同的抓取位置。 現(xiàn)有面向任務(wù)的抓。═OG)方法因受限于小規(guī)模數(shù)據(jù)集、簡化語言描述及整潔場景假設(shè),難以泛化至新任務(wù)和未見過的物體,導(dǎo)致在真實復(fù)雜環(huán)境中靈活性不足。 為解決這一難題,研究團隊以Franka Research 3七自由度機械臂為實驗平臺,提出了GraspMolmo——一種可泛化的開放詞匯任務(wù)導(dǎo)向抓取模型。 其核心目標(biāo)是:通過結(jié)合自然語言指令與單幀RGB-D圖像,精準(zhǔn)預(yù)測符合任務(wù)需求的抓取方式,真正實現(xiàn)“機器人不僅能抓,還懂為何抓、如何抓”。 GraspMolmo是一種可泛化的開放詞匯面向任務(wù)的抓取模型,它在給定自然語言指令的情況下預(yù)測語義上合適的抓取 核心方法:GraspMolmo與PRISM數(shù)據(jù)集 GraspMolmo的突破離不開兩大關(guān)鍵支撐:大規(guī)模合成數(shù)據(jù)集PRISM的構(gòu)建,以及基于視覺語言模型的高效訓(xùn)練。 1.PRISM:大規(guī)模任務(wù)語義抓取數(shù)據(jù)集 PRISM(Purpose-driven Robotic Interaction in Scene Manipulation)是支撐GraspMolmo的核心訓(xùn)練數(shù)據(jù),通過程序化生成覆蓋復(fù)雜場景、多樣化物體和自然任務(wù)描述的37.9萬樣本。 其構(gòu)建流程包括: 場景生成:基于ShapeNet-Sem 3D模型庫與ACRONYM抓取數(shù)據(jù)集,利用SceneSynthesizer工具生成10,000個獨特場景(每場景含2-12個物體,覆蓋91類日常用品),并隨機化光照、相機視角(每場景10視角)和物體排列,模擬真實雜亂環(huán)境。 任務(wù)與抓取描述生成:通過GPT-4o生成抓取的自然語言描述(如“抓取平底鍋邊緣內(nèi)側(cè)和外側(cè)”),再經(jīng)人工驗證修正(45%生成描述準(zhǔn)確,55%需修正),確保描述的空間關(guān)系與接觸點精度; 同時針對每個物體類別生成兩種差異顯著的抓取方式(如杯子的“握柄”與“握杯身”),并為每種抓取設(shè)計4個語義任務(wù)(如“用杯子倒水”“掛杯子到鉤子上”)。 任務(wù)-抓取匹配:通過GPT-4o匹配任務(wù)描述與抓取描述,構(gòu)建“場景-任務(wù)-抓取”三元組,最終形成包含圖像、任務(wù)指令、抓取坐標(biāo)和自然語言描述的PRISM數(shù)據(jù)集。 我們生成的數(shù)據(jù)集PRISM-Train和評估基準(zhǔn)是一項重大貢獻(xiàn) PRISM測試。首先,從Shapenet-Sem 資產(chǎn)生成合成場景, ACRONYM [50]抓取。接下來,生成以對象為中心的抓取空間描述,并手動過濾,為對象類別生成有趣且多樣的任務(wù) GraspMolmo模型訓(xùn)練: GraspMolmo基于視覺語言模型(VLM)Molmo微調(diào),結(jié)合PRISM(45%)、TaskGrasp-Image(10%)及其他多模態(tài)數(shù)據(jù)(如VQA、PixMo)混合訓(xùn)練,保留模型對新物體和場景的泛化能力,同時適應(yīng)抓取任務(wù)需求。 模型輸出圖像平面上的抓取點,通過射線投射和最近點查詢匹配穩(wěn)定抓取生成器(如M2T2)預(yù)測的候選抓取,最終選擇最接近的抓取作為結(jié)果。 實驗設(shè)計與驗證 實驗以Franka Research 3機械臂為硬件平臺(搭載RGB-D相機實現(xiàn)實時感知與抓。ㄟ^三級基準(zhǔn)測試逐步驗證GraspMolmo的性能: 1. 基準(zhǔn)測試與場景設(shè)計 TaskGrasp-Image:基于真實RGB-D圖像的傳統(tǒng)TOG基準(zhǔn),評估模型在簡單對象和有限視覺場景下的基礎(chǔ)性能。 PRISM-Test:全合成評估集(包含未見過的物體實例和類別,如TeaCup、Fork),測試模型對新物體和新場景的泛化能力。 PRISM-Real:真實雜亂場景評估(覆蓋3類家庭場景:廚房、書桌、客廳,包含9類物體的18項任務(wù),如“倒咖啡”“安全遞刀”“倒出花瓶中的花”),驗證模型實際應(yīng)用表現(xiàn)。 我們在三個代表家庭使用案例的真實場景中進行評估,具有不同任務(wù)語義的不同對象。我們還展示了對雙手的零樣本適用性面向任務(wù)的抓取。我們展示了GraspMolmo和基線的樣本抓取輸出 任務(wù)“倒出花朵”,機器人必須抓住花瓶并將其翻轉(zhuǎn)過來,以清空花瓶 花朵。GraspMolmo正確地在最佳位置抓住花瓶,將其翻轉(zhuǎn) 2、場景設(shè)計嚴(yán)格模擬真實限制 采用單視角RGB-D觀測(貼近傳感器實際輸入),構(gòu)建多物體混亂場景(模擬真實雜亂環(huán)境),以自然語言下達(dá)任務(wù)指令(增加任務(wù)復(fù)雜度),并拓展雙手抓取測試(驗證復(fù)雜任務(wù)靈活性)。 在越來越具有挑戰(zhàn)性的面向任務(wù)的抓取中,抓取預(yù)測的Top-1準(zhǔn)確率 設(shè)置。按照,我們在TaskGrasp-Image評估中跨任務(wù)進行歸一化。對于現(xiàn)實世界的在線評估,我們分別報告預(yù)測成功率(預(yù)測的抓取是否 是否正確)和總體成功率(預(yù)測的抓取是否正確,機器人是否成功 抓住物體) 關(guān)鍵成果與突破 實驗結(jié)果表明,GraspMolmo在復(fù)雜任務(wù)和真實場景中表現(xiàn)遠(yuǎn)超現(xiàn)有方法,具體突破如下: 1. 泛化能力顯著提升 PRISM-Test(合成雜亂場景):GraspMolmo抓取成功率為62.5%,遠(yuǎn)高于基線方法(低于50%),驗證了模型對新物體和場景的強泛化能力。 PRISM-Real(真實場景):預(yù)測成功率70.4%,整體成功率61.1%,顯著優(yōu)于基線方法(31%),在“倒出花瓶中的花”等任務(wù)中,GraspMolmo能精準(zhǔn)選擇花瓶最佳翻轉(zhuǎn)位置,完成任務(wù)。 2. 零樣本雙手抓取能力 通過將雙手任務(wù)分解為兩個單臂任務(wù)(如“打開水瓶”分解為“提起水瓶”和“擰開瓶蓋”),GraspMolmo成功展示零樣本預(yù)測語義正確的雙手抓取能力,初步驗證了其在復(fù)雜任務(wù)中的靈活性和通用性。 3. 評估指標(biāo)與真實表現(xiàn)強相關(guān) PRISM-Test的合成評估結(jié)果與真實場景表現(xiàn)高度相關(guān)(如圖所示),證明其作為高效評估基準(zhǔn)的可靠性,為后續(xù)研究提供了優(yōu)質(zhì)工具。 PRISM測試的表現(xiàn)是現(xiàn)實場景中成功的更好指標(biāo) 比 TaskGrasp-Image 更有效 結(jié)語 GraspMolmo通過大規(guī)模合成數(shù)據(jù)集PRISM訓(xùn)練與視覺語言模型的深度融合,,突破了傳統(tǒng)TOG方法在場景泛化和任務(wù)語義理解上的瓶頸,在真實雜亂環(huán)境中實現(xiàn)了高效、智能的任務(wù)導(dǎo)向抓取。其開源的數(shù)據(jù)集、模型和基準(zhǔn),為機器人無結(jié)構(gòu)化環(huán)境部署奠定了重要基礎(chǔ)。 未來,研究團隊將持續(xù)優(yōu)化模型性能(如減少對外部抓取生成器的依賴),拓展應(yīng)用場景(如工業(yè)裝配、家庭服務(wù)),推動機器人技術(shù)向更智能、更通用的方向發(fā)展。 論文詳情:https://abhaybd.github.io/GraspMolmo/ |
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 材料與化工求調(diào)劑 +10 | 與冬清寧 2026-03-07 | 13/650 |
|
|---|---|---|---|---|
|
[考研] 一志愿山東大學(xué)105500藥學(xué)專碩,總分302求調(diào)劑 +5 | 五維天空 2026-03-04 | 12/600 |
|
|
[考研] 264求調(diào)劑 +5 | thext 2026-03-03 | 5/250 |
|
|
[考研] 310 070300化學(xué)求調(diào)劑 +4 | 撲風(fēng)鈴的貓 2026-03-08 | 5/250 |
|
|
[考研] 2026考研求調(diào)劑-材料類-本科211一志愿985-初試301分 +7 | 蟲友233 2026-03-07 | 7/350 |
|
|
[考研] 083000環(huán)境科學(xué)與工程調(diào)劑 +5 | 加油呀fxy 2026-03-07 | 6/300 |
|
|
[考研] 269求調(diào)劑 +3 | 朔朔話 2026-03-08 | 4/200 |
|
|
[考研] 調(diào)劑 +3 | 13853210211 2026-03-08 | 3/150 |
|
|
[考研] 求調(diào)劑,一志愿華中科大0702,數(shù)一英一,293 +4 | 小羅露一二 2026-03-07 | 4/200 |
|
|
[考研] 第一志愿上海大學(xué),專業(yè)化學(xué)工程與技術(shù),總分288,求調(diào)劑 +3 | 1829197082 2026-03-07 | 3/150 |
|
|
[考研] 材料考研339求調(diào)劑 +3 | Karry*^_^* 2026-03-04 | 3/150 |
|
|
[考研] 282求調(diào)劑 +7 | 夕~日 2026-03-05 | 8/400 |
|
|
[考研] 求調(diào)劑 +3 | 泡了個椒 2026-03-04 | 4/200 |
|
|
[考研] 347求調(diào)劑 +6 | 啊歐歐歐 2026-03-03 | 8/400 |
|
|
[考研] 材料328求調(diào)劑 +10 | 一個蘿卜02 2026-03-03 | 10/500 |
|
|
[考研] 0856材料專碩274能調(diào)劑去哪里? +3 | 22735 2026-03-04 | 4/200 |
|
|
[考研] 22408-273求調(diào)劑-擔(dān)任3個項目的負(fù)責(zé)人-1篇國際期刊論文(一作)1篇核心期刊論文在投。 +3 | 沒想好取什么名 2026-03-03 | 3/150 |
|
|
[考研] 293求調(diào)劑 +3 | 是樂渝哇 2026-03-04 | 3/150 |
|
|
[考研] 0857求調(diào)劑 +4 | CDDD1013 2026-03-04 | 4/200 |
|
|
[考研] 292求調(diào)劑 +3 | sgbl 2026-03-03 | 3/150 |
|