| 1 | 1/1 | 返回列表 |
| 查看: 726 | 回復(fù): 0 | |||
BFT驛站新蟲 (小有名氣)
|
[交流]
Franka助力GraspMolmo研究,實(shí)現(xiàn)可泛化任務(wù)導(dǎo)向抓取的關(guān)鍵突破
|
|
研究背景: 傳統(tǒng)機(jī)器人抓取技術(shù)多依賴物體幾何特征,僅關(guān)注抓取穩(wěn)定性,卻忽視了任務(wù)具體需求。例如,同一把刀在“切菜”與“安全傳遞”任務(wù)中需要完全不同的抓取位置。 現(xiàn)有面向任務(wù)的抓。═OG)方法因受限于小規(guī)模數(shù)據(jù)集、簡(jiǎn)化語言描述及整潔場(chǎng)景假設(shè),難以泛化至新任務(wù)和未見過的物體,導(dǎo)致在真實(shí)復(fù)雜環(huán)境中靈活性不足。 為解決這一難題,研究團(tuán)隊(duì)以Franka Research 3七自由度機(jī)械臂為實(shí)驗(yàn)平臺(tái),提出了GraspMolmo——一種可泛化的開放詞匯任務(wù)導(dǎo)向抓取模型。 其核心目標(biāo)是:通過結(jié)合自然語言指令與單幀RGB-D圖像,精準(zhǔn)預(yù)測(cè)符合任務(wù)需求的抓取方式,真正實(shí)現(xiàn)“機(jī)器人不僅能抓,還懂為何抓、如何抓”。 GraspMolmo是一種可泛化的開放詞匯面向任務(wù)的抓取模型,它在給定自然語言指令的情況下預(yù)測(cè)語義上合適的抓取 核心方法:GraspMolmo與PRISM數(shù)據(jù)集 GraspMolmo的突破離不開兩大關(guān)鍵支撐:大規(guī)模合成數(shù)據(jù)集PRISM的構(gòu)建,以及基于視覺語言模型的高效訓(xùn)練。 1.PRISM:大規(guī)模任務(wù)語義抓取數(shù)據(jù)集 PRISM(Purpose-driven Robotic Interaction in Scene Manipulation)是支撐GraspMolmo的核心訓(xùn)練數(shù)據(jù),通過程序化生成覆蓋復(fù)雜場(chǎng)景、多樣化物體和自然任務(wù)描述的37.9萬樣本。 其構(gòu)建流程包括: 場(chǎng)景生成:基于ShapeNet-Sem 3D模型庫與ACRONYM抓取數(shù)據(jù)集,利用SceneSynthesizer工具生成10,000個(gè)獨(dú)特場(chǎng)景(每場(chǎng)景含2-12個(gè)物體,覆蓋91類日常用品),并隨機(jī)化光照、相機(jī)視角(每場(chǎng)景10視角)和物體排列,模擬真實(shí)雜亂環(huán)境。 任務(wù)與抓取描述生成:通過GPT-4o生成抓取的自然語言描述(如“抓取平底鍋邊緣內(nèi)側(cè)和外側(cè)”),再經(jīng)人工驗(yàn)證修正(45%生成描述準(zhǔn)確,55%需修正),確保描述的空間關(guān)系與接觸點(diǎn)精度; 同時(shí)針對(duì)每個(gè)物體類別生成兩種差異顯著的抓取方式(如杯子的“握柄”與“握杯身”),并為每種抓取設(shè)計(jì)4個(gè)語義任務(wù)(如“用杯子倒水”“掛杯子到鉤子上”)。 任務(wù)-抓取匹配:通過GPT-4o匹配任務(wù)描述與抓取描述,構(gòu)建“場(chǎng)景-任務(wù)-抓取”三元組,最終形成包含圖像、任務(wù)指令、抓取坐標(biāo)和自然語言描述的PRISM數(shù)據(jù)集。 我們生成的數(shù)據(jù)集PRISM-Train和評(píng)估基準(zhǔn)是一項(xiàng)重大貢獻(xiàn) PRISM測(cè)試。首先,從Shapenet-Sem 資產(chǎn)生成合成場(chǎng)景, ACRONYM [50]抓取。接下來,生成以對(duì)象為中心的抓取空間描述,并手動(dòng)過濾,為對(duì)象類別生成有趣且多樣的任務(wù) GraspMolmo模型訓(xùn)練: GraspMolmo基于視覺語言模型(VLM)Molmo微調(diào),結(jié)合PRISM(45%)、TaskGrasp-Image(10%)及其他多模態(tài)數(shù)據(jù)(如VQA、PixMo)混合訓(xùn)練,保留模型對(duì)新物體和場(chǎng)景的泛化能力,同時(shí)適應(yīng)抓取任務(wù)需求。 模型輸出圖像平面上的抓取點(diǎn),通過射線投射和最近點(diǎn)查詢匹配穩(wěn)定抓取生成器(如M2T2)預(yù)測(cè)的候選抓取,最終選擇最接近的抓取作為結(jié)果。 實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證 實(shí)驗(yàn)以Franka Research 3機(jī)械臂為硬件平臺(tái)(搭載RGB-D相機(jī)實(shí)現(xiàn)實(shí)時(shí)感知與抓。ㄟ^三級(jí)基準(zhǔn)測(cè)試逐步驗(yàn)證GraspMolmo的性能: 1. 基準(zhǔn)測(cè)試與場(chǎng)景設(shè)計(jì) TaskGrasp-Image:基于真實(shí)RGB-D圖像的傳統(tǒng)TOG基準(zhǔn),評(píng)估模型在簡(jiǎn)單對(duì)象和有限視覺場(chǎng)景下的基礎(chǔ)性能。 PRISM-Test:全合成評(píng)估集(包含未見過的物體實(shí)例和類別,如TeaCup、Fork),測(cè)試模型對(duì)新物體和新場(chǎng)景的泛化能力。 PRISM-Real:真實(shí)雜亂場(chǎng)景評(píng)估(覆蓋3類家庭場(chǎng)景:廚房、書桌、客廳,包含9類物體的18項(xiàng)任務(wù),如“倒咖啡”“安全遞刀”“倒出花瓶中的花”),驗(yàn)證模型實(shí)際應(yīng)用表現(xiàn)。 我們?cè)谌齻(gè)代表家庭使用案例的真實(shí)場(chǎng)景中進(jìn)行評(píng)估,具有不同任務(wù)語義的不同對(duì)象。我們還展示了對(duì)雙手的零樣本適用性面向任務(wù)的抓取。我們展示了GraspMolmo和基線的樣本抓取輸出 任務(wù)“倒出花朵”,機(jī)器人必須抓住花瓶并將其翻轉(zhuǎn)過來,以清空花瓶 花朵。GraspMolmo正確地在最佳位置抓住花瓶,將其翻轉(zhuǎn) 2、場(chǎng)景設(shè)計(jì)嚴(yán)格模擬真實(shí)限制 采用單視角RGB-D觀測(cè)(貼近傳感器實(shí)際輸入),構(gòu)建多物體混亂場(chǎng)景(模擬真實(shí)雜亂環(huán)境),以自然語言下達(dá)任務(wù)指令(增加任務(wù)復(fù)雜度),并拓展雙手抓取測(cè)試(驗(yàn)證復(fù)雜任務(wù)靈活性)。 在越來越具有挑戰(zhàn)性的面向任務(wù)的抓取中,抓取預(yù)測(cè)的Top-1準(zhǔn)確率 設(shè)置。按照,我們?cè)赥askGrasp-Image評(píng)估中跨任務(wù)進(jìn)行歸一化。對(duì)于現(xiàn)實(shí)世界的在線評(píng)估,我們分別報(bào)告預(yù)測(cè)成功率(預(yù)測(cè)的抓取是否 是否正確)和總體成功率(預(yù)測(cè)的抓取是否正確,機(jī)器人是否成功 抓住物體) 關(guān)鍵成果與突破 實(shí)驗(yàn)結(jié)果表明,GraspMolmo在復(fù)雜任務(wù)和真實(shí)場(chǎng)景中表現(xiàn)遠(yuǎn)超現(xiàn)有方法,具體突破如下: 1. 泛化能力顯著提升 PRISM-Test(合成雜亂場(chǎng)景):GraspMolmo抓取成功率為62.5%,遠(yuǎn)高于基線方法(低于50%),驗(yàn)證了模型對(duì)新物體和場(chǎng)景的強(qiáng)泛化能力。 PRISM-Real(真實(shí)場(chǎng)景):預(yù)測(cè)成功率70.4%,整體成功率61.1%,顯著優(yōu)于基線方法(31%),在“倒出花瓶中的花”等任務(wù)中,GraspMolmo能精準(zhǔn)選擇花瓶最佳翻轉(zhuǎn)位置,完成任務(wù)。 2. 零樣本雙手抓取能力 通過將雙手任務(wù)分解為兩個(gè)單臂任務(wù)(如“打開水瓶”分解為“提起水瓶”和“擰開瓶蓋”),GraspMolmo成功展示零樣本預(yù)測(cè)語義正確的雙手抓取能力,初步驗(yàn)證了其在復(fù)雜任務(wù)中的靈活性和通用性。 3. 評(píng)估指標(biāo)與真實(shí)表現(xiàn)強(qiáng)相關(guān) PRISM-Test的合成評(píng)估結(jié)果與真實(shí)場(chǎng)景表現(xiàn)高度相關(guān)(如圖所示),證明其作為高效評(píng)估基準(zhǔn)的可靠性,為后續(xù)研究提供了優(yōu)質(zhì)工具。 PRISM測(cè)試的表現(xiàn)是現(xiàn)實(shí)場(chǎng)景中成功的更好指標(biāo) 比 TaskGrasp-Image 更有效 結(jié)語 GraspMolmo通過大規(guī)模合成數(shù)據(jù)集PRISM訓(xùn)練與視覺語言模型的深度融合,,突破了傳統(tǒng)TOG方法在場(chǎng)景泛化和任務(wù)語義理解上的瓶頸,在真實(shí)雜亂環(huán)境中實(shí)現(xiàn)了高效、智能的任務(wù)導(dǎo)向抓取。其開源的數(shù)據(jù)集、模型和基準(zhǔn),為機(jī)器人無結(jié)構(gòu)化環(huán)境部署奠定了重要基礎(chǔ)。 未來,研究團(tuán)隊(duì)將持續(xù)優(yōu)化模型性能(如減少對(duì)外部抓取生成器的依賴),拓展應(yīng)用場(chǎng)景(如工業(yè)裝配、家庭服務(wù)),推動(dòng)機(jī)器人技術(shù)向更智能、更通用的方向發(fā)展。 論文詳情:https://abhaybd.github.io/GraspMolmo/ |
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 接收調(diào)劑 +15 | 津萌津萌 2026-03-02 | 23/1150 |
|
|---|---|---|---|---|
|
[考研] 學(xué)碩材料275調(diào)劑 +4 | 路三三 2026-03-03 | 4/200 |
|
|
[考研] 266求調(diào)劑 +4 | 哇塞王帥 2026-03-03 | 4/200 |
|
|
[考研] 理學(xué),工學(xué),農(nóng)學(xué)調(diào)劑,少走彎路,這里歡迎您! +8 | likeihood 2026-03-02 | 11/550 |
|
|
[考研] 276求調(diào)劑 +8 | 路lyh123 2026-02-28 | 10/500 |
|
|
[考研] 298求調(diào)劑 +3 | 人間唯你是清歡 2026-03-03 | 4/200 |
|
|
[基金申請(qǐng)] 沒有青基直接申請(qǐng)面上,感覺自己瘋了 +5 | kevin63t 2026-03-02 | 6/300 |
|
|
[考研] 材料學(xué)碩318求調(diào)劑 +15 | February_Feb 2026-03-01 | 17/850 |
|
|
[考研]
|
glwshine 2026-03-02 | 5/250 |
|
|
[考研] 沒上岸的看過來 +3 | tangxiaotian 2026-03-01 | 3/150 |
|
|
[考研] 求調(diào)劑院校 +6 | 云朵452 2026-03-02 | 8/400 |
|
|
[考研] 288求調(diào)劑 +3 | 少71.8 2026-03-02 | 5/250 |
|
|
[考研] 材料調(diào)劑 +3 | 恒順自然 2026-03-02 | 3/150 |
|
|
[考研] 一志愿東北大學(xué)材料專碩328,求調(diào)劑 +3 | shs1083 2026-03-02 | 3/150 |
|
|
[考研] 284求調(diào)劑 +10 | 天下熯 2026-02-28 | 11/550 |
|
|
[考研] 一志愿鄭大材料學(xué)碩298分,求調(diào)劑 +6 | wsl111 2026-03-01 | 6/300 |
|
|
[考研] 材料類求調(diào)劑 +11 | wana_kiko 2026-02-28 | 14/700 |
|
|
[考研] 299求調(diào)劑 +3 | Y墨明棋妙Y 2026-02-28 | 5/250 |
|
|
[基金申請(qǐng)]
剛錄用,沒有期刊號(hào),但是在線可看的論文可以放為代表作嗎
10+3
|
arang1 2026-03-01 | 3/150 |
|
|
[考研] 調(diào)劑 +3 | 簡(jiǎn)木ChuFront 2026-02-28 | 3/150 |
|