| 1 | 1/1 | 返回列表 |
| 查看: 875 | 回復(fù): 0 | |||
BFT驛站新蟲 (小有名氣)
|
[交流]
松靈PiPER機(jī)械臂在HybridVLA框架中的創(chuàng)新實(shí)踐
|
|
協(xié)作擴(kuò)散與自回歸協(xié)同機(jī)制的實(shí)驗(yàn)驗(yàn)證 前言 在具身智能領(lǐng)域,視覺 - 語言 - 動(dòng)作(VLA)模型是機(jī)器人技術(shù)發(fā)展關(guān)鍵。但現(xiàn)有 VLA 模型在動(dòng)作生成策略上問題突出:自回歸方法量化動(dòng)作離散化,破壞動(dòng)作連續(xù)性,影響高精度操作;擴(kuò)散方法依賴預(yù)訓(xùn)練視覺 - 語言模型特征提取,動(dòng)態(tài)推理能力不足。且多智能體協(xié)作時(shí),難以突破單任務(wù)局限實(shí)現(xiàn)動(dòng)態(tài)協(xié)同。 本文以松靈PiPER機(jī)械臂和Franka Research 3機(jī)械臂為實(shí)驗(yàn)載體,通過HybridVLA框架,實(shí)現(xiàn)智能體間動(dòng)態(tài)協(xié)同,從而有效克服現(xiàn)有VLA模型在動(dòng)作生成策略及多智能體協(xié)作方面存在的困難與難點(diǎn)。 技術(shù)框架與核心參數(shù) 機(jī)器人實(shí)驗(yàn)載體: 松靈PiPER機(jī)械臂 6軸自由度設(shè)計(jì) 松靈夾爪 英特爾 D435 Franka Research 3機(jī)械臂: 7自由度設(shè)計(jì) 前端Franka夾爪 技術(shù)框架 HybridVLA框架:融合擴(kuò)散與自回歸策略 協(xié)同訓(xùn)練方案 協(xié)同動(dòng)作集成機(jī)制 圖2:HybridVLA框架。無論采用何種形式,輸入數(shù)據(jù)都會(huì)被編碼并連接到我們格式化的令牌序列中。為了將擴(kuò)散集成到LLM中,HybridVLA同時(shí)將去噪時(shí)間步長(zhǎng)和噪聲動(dòng)作投影到令牌序列中。標(biāo)記標(biāo)記<BOD>(擴(kuò)散開始)和<EOD>(擴(kuò)散結(jié)束)旨在彌合這兩種生成方法。通過采用協(xié)作訓(xùn)練來明確地整合來自兩種生成方法的知識(shí),這兩種動(dòng)作類型相互強(qiáng)化,并自適應(yīng)地組合在一起以控制機(jī)器人手臂。對(duì)于HybridVLA的輸出,通過迭代去噪生成連續(xù)動(dòng)作,而自回歸生成離散動(dòng)作,所有這些都在下一個(gè)令牌預(yù)測(cè)過程中進(jìn)行 策略開發(fā)全流程 數(shù)據(jù)準(zhǔn)備與預(yù)處理 數(shù)據(jù)采集:收集 RLBench 模擬數(shù)據(jù)(10 類任務(wù))、Franka 單臂 / AgileX 雙臂真實(shí)數(shù)據(jù)(各 5 類任務(wù)),整合 35 個(gè)開源數(shù)據(jù)集(76 萬條軌跡)用于預(yù)訓(xùn)練。 數(shù)據(jù)處理:動(dòng)作編碼為 7-DOF(單臂)/14-DOF(雙臂),添加擴(kuò)散噪聲;多模態(tài)數(shù)據(jù)(視覺、語言、機(jī)器人狀態(tài))標(biāo)記化,用特殊標(biāo)記分隔擴(kuò)散與自回歸部分。 模型架構(gòu)設(shè)計(jì) 核心組件: 視覺編碼器:DINOv2/SigLIP(7B 模型)或 CLIP(2.7B 模型)提取多視圖特征。 LLM:LLAMA-2(7B)或 Phi-2(2.7B)處理多模態(tài)標(biāo)記,輸出擴(kuò)散(連續(xù)動(dòng)作)和自回歸(離散動(dòng)作)標(biāo)記。 動(dòng)作生成模塊:擴(kuò)散頭通過 DDIM 采樣去噪,自回歸頭解碼離散標(biāo)記并計(jì)算置信度。 關(guān)鍵機(jī)制: 協(xié)作動(dòng)作集成:根據(jù)自回歸標(biāo)記置信度(閾值 0.96)動(dòng)態(tài)融合兩種動(dòng)作。 KV 緩存加速:提升擴(kuò)散推理速度至 9.4 Hz。 實(shí)驗(yàn)驗(yàn)證 訓(xùn)練策略 預(yù)訓(xùn)練:在跨域數(shù)據(jù)集上訓(xùn)練 5 個(gè) epoch,學(xué)習(xí)通用動(dòng)作語義關(guān)聯(lián)。 微調(diào):模擬(RLBench)和真實(shí)場(chǎng)景(單 / 雙臂任務(wù))中優(yōu)化混合損失(Ldif+Lce) 模擬實(shí)驗(yàn)(RLBench 基準(zhǔn)) 模擬測(cè)試:10 類任務(wù)平均成功率 74%,優(yōu)于基線方法(如 CogACT 60%)。 表1。探索和驗(yàn)證我們提出的令牌序列公式。該模型使用擴(kuò)散和自回歸生成進(jìn)行訓(xùn)練,但僅在10個(gè)模擬任務(wù)中對(duì)基于擴(kuò)散的動(dòng)作(HybridVLA-dif)進(jìn)行了測(cè)試。 定量結(jié)果(成功率 S.R. & 推理速度) 表2。在RLBench上比較我們提出的方法和基線。我們?cè)诙嗳蝿?wù)設(shè)置中訓(xùn)練所有方法[87],并報(bào)告每個(gè)任務(wù)的成功率(S.R.)。成功條件遵循RLBench中的定義!癏ybridVLA-dif”指的是僅依賴于擴(kuò)散過程的行為預(yù)測(cè)。(7B)、(2.7B)和(2.6B)是指VLA模型中使用的LLM的大小。 關(guān)鍵發(fā)現(xiàn): 在 RLBench 基準(zhǔn)的模擬實(shí)驗(yàn)中,HybridVLA(7B)在 10 類任務(wù)中平均成功率達(dá) 74%,顯著優(yōu)于 OpenVLA(41%)、CogACT(60%)等基線方法,尤其在 Close laptop(95%)、Toilet seat down(100%)等任務(wù)中表現(xiàn)突出。僅使用擴(kuò)散推理的 HybridVLA-dif(7B)平均成功率 66%,推理速度 9.4 Hz,兼顧效率與精度。2.7B 模型雖平均成功率 58%,但推理速度達(dá) 12.3 Hz。整體而言,HybridVLA 在成功率和推理速度上實(shí)現(xiàn)了較好平衡,優(yōu)于多數(shù)對(duì)比方法。 核心結(jié)論:HybridVLA 通過 LLM 內(nèi)擴(kuò)散與自回歸的協(xié)作,在成功率和推理速度間取得平衡,尤其在語義 - 動(dòng)作聯(lián)合建模任務(wù)中優(yōu)勢(shì)顯著。 真實(shí)驗(yàn)證 實(shí)驗(yàn)過程: 單臂實(shí)驗(yàn)(Franka Research 3) 任務(wù):5 類真實(shí)操作(Pick and place、Unplug charger、Pour water、Wipe blackboard、Open drawer and place inside),每任務(wù) 100 條示教軌跡,多視圖輸入(front + wrist camera)。 對(duì)比方法:π₀ (2.6B)、CogACT (7B)(僅單臂支持)。 雙臂實(shí)驗(yàn)(AgileX PiPER) 任務(wù):5 類協(xié)作任務(wù)(Pick and place、Lift ball and place、Place bottles at rack、Wipe blackboard、Fold shorts),每任務(wù) 100 條軌跡,三視圖輸入(external + left/right wrist cameras)。 對(duì)比方法:π₀ (2.6B)(雙臂基線) 表4。我們的方法和基線在現(xiàn)實(shí)世界場(chǎng)景中的比較。我們?cè)趩我蝗蝿?wù)設(shè)置中訓(xùn)練所有方法[110],并報(bào)告成功率。成功取決于基于任務(wù)是否完成的人工評(píng)估。由于CogAct缺乏對(duì)多視圖圖像的支持,而多視圖圖像對(duì)于雙臂任務(wù)至關(guān)重要[8,20],因此我們僅使用π0進(jìn)行雙臂比較。 關(guān)鍵發(fā)現(xiàn):Franka 單臂任務(wù)成功率 80%-95%,AgileX 雙臂任務(wù) 66%-80% 泛化能力驗(yàn)證 變量設(shè)置: 未見物體:用充電器替代訓(xùn)練中的紅色方塊(Pick and place 任務(wù))。 復(fù)雜背景:在操作區(qū)域添加雜物(如花盆)。 光照變化:模擬夜間環(huán)境(低光照 + 色偏)。 表5。一般化!皩(duì)象”、“背景”、“高度”和“照明”分別表示看不見的操縱對(duì)象、背景、空間位置和照明條件。上圖顯示了四個(gè)看不見的測(cè)試場(chǎng)景,紅色框突出了關(guān)鍵差異。 關(guān)鍵發(fā)現(xiàn):HybridVLA-dif 在 “未見物體” 場(chǎng)景中成功率下降 7%-41%,顯著低于 π₀的 8%-43%,證明其對(duì)語義泛化的更強(qiáng)適應(yīng)性。 核心結(jié)論:多視圖輸入與協(xié)作動(dòng)作集成機(jī)制使模型在單 / 雙臂任務(wù)中表現(xiàn)穩(wěn)健,泛化能力優(yōu)于傳統(tǒng)擴(kuò)散方法,為工業(yè)和服務(wù)機(jī)器人提供了可落地的通用框架。 論文詳情:https://hybrid-vla.github.io/ |
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[論文投稿]
EST拒稿重投
5+3
|
15102603076 2026-03-02 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 歡迎采礦、地質(zhì)、巖土、計(jì)算機(jī)、人工智能等專業(yè)的同學(xué)報(bào)考 +8 | pin8023 2026-02-28 | 11/550 |
|
|
[考研] 化學(xué) 0703求調(diào)劑 總分293 一志愿211 +3 | 土土小蟲 2026-03-03 | 3/150 |
|
|
[考研] 304分材料專碩求調(diào)劑 +3 | qiuzhigril 2026-03-03 | 5/250 |
|
|
[考研] 264求調(diào)劑 +6 | 26調(diào)劑 2026-03-03 | 6/300 |
|
|
[考研] 085600 材料與化工 298 +7 | 小西笑嘻嘻 2026-03-03 | 7/350 |
|
|
[考研] 298求調(diào)劑 +3 | 人間唯你是清歡 2026-03-03 | 4/200 |
|
|
[考研] 292求調(diào)劑 +3 | sgbl 2026-03-03 | 3/150 |
|
|
[考研] 環(huán)境調(diào)劑 +5 | 柒槿levana 2026-03-01 | 5/250 |
|
|
[考研]
材料270求調(diào)劑
6+6
|
Eiiiio 2026-03-01 | 11/550 |
|
|
[考研] 284求調(diào)劑 +6 | 天下熯 2026-03-02 | 6/300 |
|
|
[考研] 材料工程求調(diào)劑 +3 | 1431251 2026-03-03 | 3/150 |
|
|
[考研] 080500材料科學(xué)與工程 +4 | 202114020319 2026-03-03 | 4/200 |
|
|
[考研] 0856材料與化工,270求調(diào)劑 +11 | YXCT 2026-03-01 | 13/650 |
|
|
[考研] 285求調(diào)劑 +9 | 滿頭大汗的學(xué)生 2026-02-28 | 9/450 |
|
|
[考研] 化學(xué),材料,環(huán)境類求調(diào)劑 +7 | 考研版棒棒 2026-03-02 | 7/350 |
|
|
[考研] 306分材料調(diào)劑 +5 | chuanzhu川燭 2026-03-01 | 6/300 |
|
|
[考研] 292求調(diào)劑 +7 | yhk_819 2026-02-28 | 7/350 |
|
|
[考研] 275求調(diào)劑 +3 | L-xin? 2026-03-01 | 6/300 |
|
|
[考研] 304求調(diào)劑 +3 | 52hz~~ 2026-02-28 | 5/250 |
|