| 1 | 1/1 | 返回列表 |
| 查看: 888 | 回復: 0 | |||
[交流]
松靈PiPER機械臂在HybridVLA框架中的創(chuàng)新實踐
|
|
協(xié)作擴散與自回歸協(xié)同機制的實驗驗證 前言 在具身智能領域,視覺 - 語言 - 動作(VLA)模型是機器人技術發(fā)展關鍵。但現(xiàn)有 VLA 模型在動作生成策略上問題突出:自回歸方法量化動作離散化,破壞動作連續(xù)性,影響高精度操作;擴散方法依賴預訓練視覺 - 語言模型特征提取,動態(tài)推理能力不足。且多智能體協(xié)作時,難以突破單任務局限實現(xiàn)動態(tài)協(xié)同。 本文以松靈PiPER機械臂和Franka Research 3機械臂為實驗載體,通過HybridVLA框架,實現(xiàn)智能體間動態(tài)協(xié)同,從而有效克服現(xiàn)有VLA模型在動作生成策略及多智能體協(xié)作方面存在的困難與難點。 技術框架與核心參數(shù) 機器人實驗載體: 松靈PiPER機械臂 6軸自由度設計 松靈夾爪 英特爾 D435 Franka Research 3機械臂: 7自由度設計 前端Franka夾爪 技術框架 HybridVLA框架:融合擴散與自回歸策略 協(xié)同訓練方案 協(xié)同動作集成機制 圖2:HybridVLA框架。無論采用何種形式,輸入數(shù)據(jù)都會被編碼并連接到我們格式化的令牌序列中。為了將擴散集成到LLM中,HybridVLA同時將去噪時間步長和噪聲動作投影到令牌序列中。標記標記<BOD>(擴散開始)和<EOD>(擴散結束)旨在彌合這兩種生成方法。通過采用協(xié)作訓練來明確地整合來自兩種生成方法的知識,這兩種動作類型相互強化,并自適應地組合在一起以控制機器人手臂。對于HybridVLA的輸出,通過迭代去噪生成連續(xù)動作,而自回歸生成離散動作,所有這些都在下一個令牌預測過程中進行 策略開發(fā)全流程 數(shù)據(jù)準備與預處理 數(shù)據(jù)采集:收集 RLBench 模擬數(shù)據(jù)(10 類任務)、Franka 單臂 / AgileX 雙臂真實數(shù)據(jù)(各 5 類任務),整合 35 個開源數(shù)據(jù)集(76 萬條軌跡)用于預訓練。 數(shù)據(jù)處理:動作編碼為 7-DOF(單臂)/14-DOF(雙臂),添加擴散噪聲;多模態(tài)數(shù)據(jù)(視覺、語言、機器人狀態(tài))標記化,用特殊標記分隔擴散與自回歸部分。 模型架構設計 核心組件: 視覺編碼器:DINOv2/SigLIP(7B 模型)或 CLIP(2.7B 模型)提取多視圖特征。 LLM:LLAMA-2(7B)或 Phi-2(2.7B)處理多模態(tài)標記,輸出擴散(連續(xù)動作)和自回歸(離散動作)標記。 動作生成模塊:擴散頭通過 DDIM 采樣去噪,自回歸頭解碼離散標記并計算置信度。 關鍵機制: 協(xié)作動作集成:根據(jù)自回歸標記置信度(閾值 0.96)動態(tài)融合兩種動作。 KV 緩存加速:提升擴散推理速度至 9.4 Hz。 實驗驗證 訓練策略 預訓練:在跨域數(shù)據(jù)集上訓練 5 個 epoch,學習通用動作語義關聯(lián)。 微調(diào):模擬(RLBench)和真實場景(單 / 雙臂任務)中優(yōu)化混合損失(Ldif+Lce) 模擬實驗(RLBench 基準) 模擬測試:10 類任務平均成功率 74%,優(yōu)于基線方法(如 CogACT 60%)。 表1。探索和驗證我們提出的令牌序列公式。該模型使用擴散和自回歸生成進行訓練,但僅在10個模擬任務中對基于擴散的動作(HybridVLA-dif)進行了測試。 定量結果(成功率 S.R. & 推理速度) 表2。在RLBench上比較我們提出的方法和基線。我們在多任務設置中訓練所有方法[87],并報告每個任務的成功率(S.R.)。成功條件遵循RLBench中的定義!癏ybridVLA-dif”指的是僅依賴于擴散過程的行為預測。(7B)、(2.7B)和(2.6B)是指VLA模型中使用的LLM的大小。 關鍵發(fā)現(xiàn): 在 RLBench 基準的模擬實驗中,HybridVLA(7B)在 10 類任務中平均成功率達 74%,顯著優(yōu)于 OpenVLA(41%)、CogACT(60%)等基線方法,尤其在 Close laptop(95%)、Toilet seat down(100%)等任務中表現(xiàn)突出。僅使用擴散推理的 HybridVLA-dif(7B)平均成功率 66%,推理速度 9.4 Hz,兼顧效率與精度。2.7B 模型雖平均成功率 58%,但推理速度達 12.3 Hz。整體而言,HybridVLA 在成功率和推理速度上實現(xiàn)了較好平衡,優(yōu)于多數(shù)對比方法。 核心結論:HybridVLA 通過 LLM 內(nèi)擴散與自回歸的協(xié)作,在成功率和推理速度間取得平衡,尤其在語義 - 動作聯(lián)合建模任務中優(yōu)勢顯著。 真實驗證 實驗過程: 單臂實驗(Franka Research 3) 任務:5 類真實操作(Pick and place、Unplug charger、Pour water、Wipe blackboard、Open drawer and place inside),每任務 100 條示教軌跡,多視圖輸入(front + wrist camera)。 對比方法:π₀ (2.6B)、CogACT (7B)(僅單臂支持)。 雙臂實驗(AgileX PiPER) 任務:5 類協(xié)作任務(Pick and place、Lift ball and place、Place bottles at rack、Wipe blackboard、Fold shorts),每任務 100 條軌跡,三視圖輸入(external + left/right wrist cameras)。 對比方法:π₀ (2.6B)(雙臂基線) 表4。我們的方法和基線在現(xiàn)實世界場景中的比較。我們在單一任務設置中訓練所有方法[110],并報告成功率。成功取決于基于任務是否完成的人工評估。由于CogAct缺乏對多視圖圖像的支持,而多視圖圖像對于雙臂任務至關重要[8,20],因此我們僅使用π0進行雙臂比較。 關鍵發(fā)現(xiàn):Franka 單臂任務成功率 80%-95%,AgileX 雙臂任務 66%-80% 泛化能力驗證 變量設置: 未見物體:用充電器替代訓練中的紅色方塊(Pick and place 任務)。 復雜背景:在操作區(qū)域添加雜物(如花盆)。 光照變化:模擬夜間環(huán)境(低光照 + 色偏)。 表5。一般化!皩ο蟆、“背景”、“高度”和“照明”分別表示看不見的操縱對象、背景、空間位置和照明條件。上圖顯示了四個看不見的測試場景,紅色框突出了關鍵差異。 關鍵發(fā)現(xiàn):HybridVLA-dif 在 “未見物體” 場景中成功率下降 7%-41%,顯著低于 π₀的 8%-43%,證明其對語義泛化的更強適應性。 核心結論:多視圖輸入與協(xié)作動作集成機制使模型在單 / 雙臂任務中表現(xiàn)穩(wěn)健,泛化能力優(yōu)于傳統(tǒng)擴散方法,為工業(yè)和服務機器人提供了可落地的通用框架。 論文詳情:https://hybrid-vla.github.io/ |
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考博] 售SCI一區(qū)T0P文章,我:8.O.5.5.1.O.5.4,科目齊全,可+急 +3 | 7x4iz20zqa 2026-03-11 | 8/400 |
|
|---|---|---|---|---|
|
[考研] 工科0856專碩化學工程269能調(diào)劑嗎 +9 | 我想讀研11 2026-03-10 | 9/450 |
|
|
[考研] 材料與化工(0856)304求B區(qū)調(diào)劑 +6 | 邱gl 2026-03-10 | 9/450 |
|
|
[考研] 271求調(diào)劑 +4 | 生如夏花… 2026-03-11 | 4/200 |
|
|
[考研] 291分獸醫(yī)專碩 一志愿華中農(nóng) +3 | 種大大太陽 2026-03-05 | 3/150 |
|
|
[考研] 材料工程085601調(diào)劑求老師收留 +8 | 強木木木 2026-03-07 | 10/500 |
|
|
[考研] 288求調(diào)劑 +13 | 王曉陽- 2026-03-09 | 18/900 |
|
|
[考研] 調(diào)劑 +5 | 調(diào)劑的考研學生 2026-03-09 | 5/250 |
|
|
[考研] 材料工程專碩調(diào)劑自薦信,初試323 +6 | 李白26 2026-03-07 | 6/300 |
|
|
[考研] 求調(diào)劑 一志愿蘇州大學,0856化工323分 | 本科應化 | 有專利/競賽/科研助手經(jīng)歷 | +7 | 橙子cyx 2026-03-06 | 9/450 |
|
|
[考研] 294 英二數(shù)二物化 求調(diào)劑 +6 | 米飯團不好吃 2026-03-09 | 6/300 |
|
|
[考研] 296求調(diào)劑 +4 | Xinyu Wu311 2026-03-09 | 4/200 |
|
|
[考研] 297求調(diào)劑 +3 | 胡達靈 2026-03-05 | 5/250 |
|
|
[考博] 26年博士申請 +4 | 科研狗111 2026-03-07 | 4/200 |
|
|
[考研] 0817化學工程與技術312分求調(diào)劑 +7 | T123 tt 2026-03-04 | 7/350 |
|
|
[考研] 材料調(diào)劑 +7 | ounce. 2026-03-05 | 15/750 |
|
|
[考研] 322分 085600求調(diào)劑,有互聯(lián)網(wǎng)+國金及主持省級大創(chuàng)經(jīng)歷 +4 | 熊境喆 2026-03-05 | 4/200 |
|
|
[考研] 306求調(diào)劑 +7 | Bahati 2026-03-05 | 7/350 |
|
|
[考研] 085602 293分求調(diào)劑 +3 | SivanNano. 2026-03-05 | 3/150 |
|
|
[考研] 紡織、生物、化學、材料等專業(yè) +3 | Eember. 2026-03-05 | 7/350 |
|