版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門版塊排行榜

返回列表

BFT驛站

新蟲 (小有名氣)

應(yīng)助: 0 (幼兒園)
金幣: 21.5
帖子: 162
在線: 9.6小時(shí)
蟲號(hào): 34960871
注冊(cè): 2024-03-15
專業(yè): 人工智能與知識(shí)工程

[交流] Franka助力GraspMolmo研究，實(shí)現(xiàn)可泛化任務(wù)導(dǎo)向抓取的關(guān)鍵突破

研究背景：

傳統(tǒng)機(jī)器人抓取技術(shù)多依賴物體幾何特征，僅關(guān)注抓取穩(wěn)定性，卻忽視了任務(wù)具體需求。例如，同一把刀在“切菜”與“安全傳遞”任務(wù)中需要完全不同的抓取位置。

現(xiàn)有面向任務(wù)的抓�。═OG）方法因受限于小規(guī)模數(shù)據(jù)集、簡(jiǎn)化語言描述及整潔場(chǎng)景假設(shè)，難以泛化至新任務(wù)和未見過的物體，導(dǎo)致在真實(shí)復(fù)雜環(huán)境中靈活性不足。

為解決這一難題，研究團(tuán)隊(duì)以Franka Research 3七自由度機(jī)械臂為實(shí)驗(yàn)平臺(tái)，提出了GraspMolmo——一種可泛化的開放詞匯任務(wù)導(dǎo)向抓取模型。

其核心目標(biāo)是：通過結(jié)合自然語言指令與單幀RGB-D圖像，精準(zhǔn)預(yù)測(cè)符合任務(wù)需求的抓取方式，真正實(shí)現(xiàn)“機(jī)器人不僅能抓，還懂為何抓、如何抓”。

GraspMolmo是一種可泛化的開放詞匯面向任務(wù)的抓取模型，它在給定自然語言指令的情況下預(yù)測(cè)語義上合適的抓取

核心方法：GraspMolmo與PRISM數(shù)據(jù)集

GraspMolmo的突破離不開兩大關(guān)鍵支撐：大規(guī)模合成數(shù)據(jù)集PRISM的構(gòu)建，以及基于視覺語言模型的高效訓(xùn)練。

1.PRISM：大規(guī)模任務(wù)語義抓取數(shù)據(jù)集

PRISM（Purpose-driven Robotic Interaction in Scene Manipulation）是支撐GraspMolmo的核心訓(xùn)練數(shù)據(jù)，通過程序化生成覆蓋復(fù)雜場(chǎng)景、多樣化物體和自然任務(wù)描述的37.9萬樣本。

其構(gòu)建流程包括：

場(chǎng)景生成：基于ShapeNet-Sem 3D模型庫與ACRONYM抓取數(shù)據(jù)集，利用SceneSynthesizer工具生成10,000個(gè)獨(dú)特場(chǎng)景（每場(chǎng)景含2-12個(gè)物體，覆蓋91類日常用品），并隨機(jī)化光照、相機(jī)視角（每場(chǎng)景10視角）和物體排列，模擬真實(shí)雜亂環(huán)境。

任務(wù)與抓取描述生成：通過GPT-4o生成抓取的自然語言描述（如“抓取平底鍋邊緣內(nèi)側(cè)和外側(cè)”），再經(jīng)人工驗(yàn)證修正（45%生成描述準(zhǔn)確，55%需修正），確保描述的空間關(guān)系與接觸點(diǎn)精度；

同時(shí)針對(duì)每個(gè)物體類別生成兩種差異顯著的抓取方式（如杯子的“握柄”與“握杯身”），并為每種抓取設(shè)計(jì)4個(gè)語義任務(wù)（如“用杯子倒水”“掛杯子到鉤子上”）。

任務(wù)-抓取匹配：通過GPT-4o匹配任務(wù)描述與抓取描述，構(gòu)建“場(chǎng)景-任務(wù)-抓取”三元組，最終形成包含圖像、任務(wù)指令、抓取坐標(biāo)和自然語言描述的PRISM數(shù)據(jù)集。

我們生成的數(shù)據(jù)集PRISM-Train和評(píng)估基準(zhǔn)是一項(xiàng)重大貢獻(xiàn) PRISM測(cè)試。首先，從Shapenet-Sem 資產(chǎn)生成合成場(chǎng)景， ACRONYM [50]抓取。接下來，生成以對(duì)象為中心的抓取空間描述，并手動(dòng)過濾，為對(duì)象類別生成有趣且多樣的任務(wù)

GraspMolmo模型訓(xùn)練：

GraspMolmo基于視覺語言模型（VLM）Molmo微調(diào)，結(jié)合PRISM（45%）、TaskGrasp-Image（10%）及其他多模態(tài)數(shù)據(jù)（如VQA、PixMo）混合訓(xùn)練，保留模型對(duì)新物體和場(chǎng)景的泛化能力，同時(shí)適應(yīng)抓取任務(wù)需求。

模型輸出圖像平面上的抓取點(diǎn)，通過射線投射和最近點(diǎn)查詢匹配穩(wěn)定抓取生成器（如M2T2）預(yù)測(cè)的候選抓取，最終選擇最接近的抓取作為結(jié)果。

實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證

實(shí)驗(yàn)以Franka Research 3機(jī)械臂為硬件平臺(tái)（搭載RGB-D相機(jī)實(shí)現(xiàn)實(shí)時(shí)感知與抓�。ㄟ^三級(jí)基準(zhǔn)測(cè)試逐步驗(yàn)證GraspMolmo的性能：

1. 基準(zhǔn)測(cè)試與場(chǎng)景設(shè)計(jì)

TaskGrasp-Image：基于真實(shí)RGB-D圖像的傳統(tǒng)TOG基準(zhǔn)，評(píng)估模型在簡(jiǎn)單對(duì)象和有限視覺場(chǎng)景下的基礎(chǔ)性能。

PRISM-Test：全合成評(píng)估集（包含未見過的物體實(shí)例和類別，如TeaCup、Fork），測(cè)試模型對(duì)新物體和新場(chǎng)景的泛化能力。

PRISM-Real：真實(shí)雜亂場(chǎng)景評(píng)估（覆蓋3類家庭場(chǎng)景：廚房、書桌、客廳，包含9類物體的18項(xiàng)任務(wù)，如“倒咖啡”“安全遞刀”“倒出花瓶中的花”），驗(yàn)證模型實(shí)際應(yīng)用表現(xiàn)。

我們?cè)谌齻€(gè)代表家庭使用案例的真實(shí)場(chǎng)景中進(jìn)行評(píng)估，具有不同任務(wù)語義的不同對(duì)象。我們還展示了對(duì)雙手的零樣本適用性面向任務(wù)的抓取。我們展示了GraspMolmo和基線的樣本抓取輸出任務(wù)“倒出花朵”，機(jī)器人必須抓住花瓶并將其翻轉(zhuǎn)過來，以清空花瓶花朵。GraspMolmo正確地在最佳位置抓住花瓶，將其翻轉(zhuǎn)

2、場(chǎng)景設(shè)計(jì)嚴(yán)格模擬真實(shí)限制

采用單視角RGB-D觀測(cè)（貼近傳感器實(shí)際輸入），構(gòu)建多物體混亂場(chǎng)景（模擬真實(shí)雜亂環(huán)境），以自然語言下達(dá)任務(wù)指令（增加任務(wù)復(fù)雜度），并拓展雙手抓取測(cè)試（驗(yàn)證復(fù)雜任務(wù)靈活性）。

在越來越具有挑戰(zhàn)性的面向任務(wù)的抓取中，抓取預(yù)測(cè)的Top-1準(zhǔn)確率設(shè)置。按照，我們?cè)赥askGrasp-Image評(píng)估中跨任務(wù)進(jìn)行歸一化。對(duì)于現(xiàn)實(shí)世界的在線評(píng)估，我們分別報(bào)告預(yù)測(cè)成功率（預(yù)測(cè)的抓取是否是否正確）和總體成功率（預(yù)測(cè)的抓取是否正確，機(jī)器人是否成功抓住物體)

關(guān)鍵成果與突破

實(shí)驗(yàn)結(jié)果表明，GraspMolmo在復(fù)雜任務(wù)和真實(shí)場(chǎng)景中表現(xiàn)遠(yuǎn)超現(xiàn)有方法，具體突破如下：

1. 泛化能力顯著提升

PRISM-Test（合成雜亂場(chǎng)景）：GraspMolmo抓取成功率為62.5%，遠(yuǎn)高于基線方法（低于50%），驗(yàn)證了模型對(duì)新物體和場(chǎng)景的強(qiáng)泛化能力。

PRISM-Real（真實(shí)場(chǎng)景）：預(yù)測(cè)成功率70.4%，整體成功率61.1%，顯著優(yōu)于基線方法（31%），在“倒出花瓶中的花”等任務(wù)中，GraspMolmo能精準(zhǔn)選擇花瓶最佳翻轉(zhuǎn)位置，完成任務(wù)。

2. 零樣本雙手抓取能力

通過將雙手任務(wù)分解為兩個(gè)單臂任務(wù)（如“打開水瓶”分解為“提起水瓶”和“擰開瓶蓋”），GraspMolmo成功展示零樣本預(yù)測(cè)語義正確的雙手抓取能力，初步驗(yàn)證了其在復(fù)雜任務(wù)中的靈活性和通用性。

3. 評(píng)估指標(biāo)與真實(shí)表現(xiàn)強(qiáng)相關(guān)

PRISM-Test的合成評(píng)估結(jié)果與真實(shí)場(chǎng)景表現(xiàn)高度相關(guān)（如圖所示），證明其作為高效評(píng)估基準(zhǔn)的可靠性，為后續(xù)研究提供了優(yōu)質(zhì)工具。

PRISM測(cè)試的表現(xiàn)是現(xiàn)實(shí)場(chǎng)景中成功的更好指標(biāo) 比 TaskGrasp-Image 更有效

結(jié)語

GraspMolmo通過大規(guī)模合成數(shù)據(jù)集PRISM訓(xùn)練與視覺語言模型的深度融合，，突破了傳統(tǒng)TOG方法在場(chǎng)景泛化和任務(wù)語義理解上的瓶頸，在真實(shí)雜亂環(huán)境中實(shí)現(xiàn)了高效、智能的任務(wù)導(dǎo)向抓取。其開源的數(shù)據(jù)集、模型和基準(zhǔn)，為機(jī)器人無結(jié)構(gòu)化環(huán)境部署奠定了重要基礎(chǔ)。

未來，研究團(tuán)隊(duì)將持續(xù)優(yōu)化模型性能（如減少對(duì)外部抓取生成器的依賴），拓展應(yīng)用場(chǎng)景（如工業(yè)裝配、家庭服務(wù)），推動(dòng)機(jī)器人技術(shù)向更智能、更通用的方向發(fā)展。

論文詳情：https://abhaybd.github.io/GraspMolmo/

回復(fù)此樓

» 猜你喜歡

一站式解決工業(yè)環(huán)境氣象監(jiān)測(cè)難題：優(yōu)選綜合服務(wù)商型防爆氣象站廠家推薦已經(jīng)有0人回復(fù)
硅酸鹽材料在可見光波段的吸收率和紅外波段的發(fā)射率，隨溫度的降低會(huì)有什么變化已經(jīng)有0人回復(fù)
金屬材料論文潤(rùn)色/翻譯怎么收費(fèi)? 已經(jīng)有186人回復(fù)
南方科技大學(xué)機(jī)械與能源工程系-鄧輝研究員招收2026級(jí)博士生已經(jīng)有0人回復(fù)
IEEE會(huì)議Ei收錄高校主辦-IEEE第三屆能源與電氣工程國際學(xué)術(shù)會(huì)議-EEE 2026 已經(jīng)有0人回復(fù)
Ei會(huì)議-第六屆流體與化學(xué)工程國際學(xué)術(shù)會(huì)議-ICFCE2026 已經(jīng)有1人回復(fù)
0858能源動(dòng)力專碩求調(diào)劑，已經(jīng)有1人回復(fù)
機(jī)械學(xué)碩302求調(diào)劑已經(jīng)有0人回復(fù)
南方科技大學(xué)機(jī)械與能源工程系-鄧輝研究員招收2026級(jí)博士生已經(jīng)有0人回復(fù)

1樓 2025-06-18 11:17:27

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

相關(guān)版塊跳轉(zhuǎn) 我要訂閱樓主 BFT驛站的主題更新

返回列表

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 接收調(diào)劑 +15	津萌津萌 2026-03-02	23/1150	2026-03-03 23:39 by 夢(mèng)—-
[考研] 學(xué)碩材料275調(diào)劑 +4	路三三 2026-03-03	4/200	2026-03-03 22:58 by lbsjt
[考研] 266求調(diào)劑 +4	哇塞王帥 2026-03-03	4/200	2026-03-03 19:47 by a不易
[考研] 理學(xué)，工學(xué)，農(nóng)學(xué)調(diào)劑，少走彎路，這里歡迎您！ +8	likeihood 2026-03-02	11/550	2026-03-03 19:39 by 一葉凡塵?
[考研] 276求調(diào)劑 +8	路lyh123 2026-02-28	10/500	2026-03-03 18:25 by xin吖
[考研] 298求調(diào)劑 +3	人間唯你是清歡 2026-03-03	4/200	2026-03-03 18:09 by ms629
[基金申請(qǐng)] 沒有青基直接申請(qǐng)面上，感覺自己瘋了 +5	kevin63t 2026-03-02	6/300	2026-03-03 17:15 by taoyijie
[考研] 材料學(xué)碩318求調(diào)劑 +15	February_Feb 2026-03-01	17/850	2026-03-03 14:47 by xiaomc_gzh
[考研] 計(jì)算機(jī)學(xué)碩分?jǐn)?shù)285求調(diào)劑 +4	glwshine 2026-03-02	5/250	2026-03-03 14:27 by king呀
[考研] 沒上岸的看過來 +3	tangxiaotian 2026-03-01	3/150	2026-03-03 12:03 by emokidd
[考研] 求調(diào)劑院校 +6	云朵452 2026-03-02	8/400	2026-03-03 08:45 by 花開富貴幸福人?/a>
[考研] 288求調(diào)劑 +3	少71.8 2026-03-02	5/250	2026-03-03 06:01 by tgxtgxtgx9
[考研] 材料調(diào)劑 +3	恒順自然 2026-03-02	3/150	2026-03-02 18:49 by L135790
[考研] 一志愿東北大學(xué)材料專碩328，求調(diào)劑 +3	shs1083 2026-03-02	3/150	2026-03-02 17:27 by houyaoxu
[考研] 284求調(diào)劑 +10	天下熯 2026-02-28	11/550	2026-03-02 11:03 by 無際的草原
[考研] 一志愿鄭大材料學(xué)碩298分，求調(diào)劑 +6	wsl111 2026-03-01	6/300	2026-03-02 11:00 by ydudjddnd
[考研] 材料類求調(diào)劑 +11	wana_kiko 2026-02-28	14/700	2026-03-02 08:46 by 聰明的大松鼠
[考研] 299求調(diào)劑 +3	Y墨明棋妙Y 2026-02-28	5/250	2026-03-01 21:01 by tangxiaotian
[基金申請(qǐng)] 剛錄用，沒有期刊號(hào)，但是在線可看的論文可以放為代表作嗎 10+3	arang1 2026-03-01	3/150	2026-03-01 16:43 by babero
[考研] 調(diào)劑 +3	簡(jiǎn)木ChuFront 2026-02-28	3/150	2026-03-01 11:46 by 王偉要上岸啊

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時(shí)熱門版塊排行榜

BFT驛站

[交流] Franka助力GraspMolmo研究，實(shí)現(xiàn)可泛化任務(wù)導(dǎo)向抓取的關(guān)鍵突破

» 猜你喜歡

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频