版塊導(dǎo)航: 正在加載中...

登錄注冊

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進行實名認證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號能夠正常使用，請盡快對帳號進行手機號驗證，感謝您的理解與支持！

24小時熱門版塊排行榜

返回列表

Blue機器人

新蟲 (初入文壇)

應(yīng)助: 0 (幼兒園)
金幣: 147.5
帖子: 47
在線: 3.4小時
蟲號: 36446398
注冊: 2025-05-22
專業(yè): 人工智能與知識工程

[交流] 具身大型語言模型讓機器人玩轉(zhuǎn)復(fù)雜未知場景已有1人參與

BlueRobots上海藍色蘿卜自動化科技有限公司是一家專注于機器人領(lǐng)域的技術(shù)型企業(yè)，致力于為客戶提供高性能硬件和人工智能算法的全套機器人相關(guān)軟硬件解決方案。公司核心團隊成員來自哈爾濱工業(yè)大學(xué)、上海交通大學(xué)等知名院校，以及ABB、Universal Robots等國際機器人公司，擁有十余年的研發(fā)制造經(jīng)驗。  BlueRobots在kinova機器人應(yīng)用領(lǐng)域深耕，提供包括機器人系統(tǒng)集成、機器視覺、靈巧手、六維力傳感器等在內(nèi)的成套解決方案。公司通過先進的控制技術(shù)和核心技術(shù)驅(qū)動，專注于協(xié)作機器人的應(yīng)用開發(fā)與市場推廣，幫助客戶實現(xiàn)工業(yè)自動化和智能化轉(zhuǎn)型。
通過BlueRobots平臺，您可以輕松購買各種機器人相關(guān)產(chǎn)品，省心省事省力。我們專注于為用戶提供專業(yè)、便捷且經(jīng)濟實惠的機器人系統(tǒng)及定制服務(wù)，幫助您實現(xiàn)更多可能。

英國愛丁堡大學(xué)最新研究登上《Nature Machine Intelligence》，提出ELLMER 具身大型語言模型機器人框架。依托 GPT-4 理解與規(guī)劃、RAG 知識增強、視覺 + 力反饋閉環(huán)，機器人得以在動態(tài)環(huán)境中自主完成復(fù)雜長時序任務(wù)，為具身智能落地提供新范。
在不可預(yù)測環(huán)境中執(zhí)行復(fù)雜任務(wù)，對機器人系統(tǒng)提出了巨大挑戰(zhàn)，也迫切需要機器智能實現(xiàn)突破性發(fā)展。感覺運動能力是人類智能的關(guān)鍵組成部分，因此，受生物啟發(fā)的機器智能有望成為人工智能與機器人感覺運動能力高效融合的重要路徑。

參考文獻：https://www.nature.com/articles/s42256-025-01005-x

本文提出具身大型語言模型賦能機器人（ELLMER）框架，該框架依托 GPT‑4 與檢索增強生成（RAG）技術(shù)，使機器人可在動態(tài)不確定環(huán)境中自主完成長周期復(fù)雜任務(wù)。該方法從知識庫中抽取與任務(wù)上下文相關(guān)的范例，生成融合力反饋與視覺反饋的執(zhí)行方案，并具備動態(tài)環(huán)境自適應(yīng)能力。研究團隊在咖啡制作、餐盤裝飾等典型任務(wù)中對 ELLMER 進行驗證，任務(wù)涵蓋開啟抽屜、傾倒液體等一系列連續(xù)子操作，不同子任務(wù)可分別受益于多模態(tài)感知與多樣化決策機制。實驗結(jié)果表明，ELLMER 框架可穩(wěn)定支撐機器人完成上述復(fù)雜任務(wù)。該工作展現(xiàn)了一種可擴展、高效率的智能機器人實現(xiàn)路徑，為機器人在不確定環(huán)境中自主完成復(fù)雜任務(wù)提供了重要進展。

人類智能在感覺運動過程中具有其本體論和種系發(fā)生學(xué)基礎(chǔ)，具身認知對“機器智能”具有理論意義，因為它表明，如果“認知”過程不存在，機器將無法展現(xiàn)出某些方面的智能。
嵌入在機器人設(shè)備中。這是一個仍有待驗證的推測，但“智能機器人”為探索有關(guān)人類智能的各種假設(shè)以及推動機器智能領(lǐng)域的發(fā)展提供了一種有效的方式。更實際地說，有效的人機協(xié)作最終將要求機器人至少具備接近“類人”的能力。因此，對未來“智能機器”的一個合理預(yù)期是，它們有潛力在與環(huán)境中的物體和人類進行熟練互動時，執(zhí)行抽象的認知計算。
到目前為止，多方面的研究工作已經(jīng)取得了進展：（1）機器人的感知運動能力，以及（2）人工智能。我們著手檢驗這樣一個假設(shè)，即現(xiàn)在可以將這些方法結(jié)合起來，使機器人展現(xiàn)類人智能的能力實現(xiàn)跨越式提升。我們進一步假設(shè)，整合（1）和（2）將使機器人能夠承擔(dān)在實際中有用的復(fù)雜任務(wù)，這些任務(wù)在廣泛的場景，但目前超出了機器人系統(tǒng)的能力范圍。試想這樣一種情景：有人回到家，感到疲憊又口渴。廚房里有一個配備了先進操控系統(tǒng)的機器人，它接到了準(zhǔn)備飲品的指令。這個機器人決定要沖一杯提神的咖啡，然后遞給它的人類同伴。這項對人類而言十分簡單的任務(wù)，卻包含了一系列挑戰(zhàn)，這些挑戰(zhàn)……
對接收的信息進行解讀，并分析周圍環(huán)境。接下來，它可能需要在環(huán)境中搜尋以找到一個杯子。這可能包括打開具有未知開啟機制的抽屜。然后，機器人必須測量并混合精確比例的水和咖啡。這需要精細的力控制，以及在出現(xiàn)……時對不確定性的適應(yīng)能力。這種場景是動態(tài)環(huán)境中復(fù)雜任務(wù)多面性的典型例子。傳統(tǒng)上，機器人系統(tǒng)在這些任務(wù)中表現(xiàn)不佳，因為它們無法遵循高級指令，只能依賴預(yù)編程的響應(yīng)。
強化學(xué)習(xí)和模仿學(xué)習(xí)已經(jīng)證明了交互和演示在教導(dǎo)機器人執(zhí)行復(fù)雜任務(wù)方面的有效性。這些方法很有前景15，但在適應(yīng)新任務(wù)和應(yīng)對多樣化場景時往往存在困難。當(dāng)機器人需要……時，模仿學(xué)習(xí)也面臨著挑戰(zhàn)。
為這些挑戰(zhàn)提供了一個潛在的解決方案。人類操作的復(fù)雜性在一定程度上源于認知過程的類型，由于其先進的語境理解能力，大型語言模型（LLMs）提供了一種處理復(fù)雜指令并相應(yīng)調(diào)整行動的方法，并且大量近期研究將大型語言模型用于短視域任務(wù)。日常操作任務(wù)。同樣，機器人Transformer（RT-2）利用大規(guī)模網(wǎng)絡(luò)和機器人學(xué)習(xí)數(shù)據(jù)，使機器人能夠以顯著的適應(yīng)性執(zhí)行訓(xùn)練場景之外的任務(wù)。分層擴散策略引入了一種模型結(jié)構(gòu)來生成具有上下文感知的運動軌跡，這能從高級LLM決策輸入中增強特定任務(wù)的運動。然而，在將LLM有效集成到機器人操作中仍存在挑戰(zhàn)。這些挑戰(zhàn)包括復(fù)雜的提示要求、缺乏實時交互反饋、缺乏利用力反饋的LLM驅(qū)動工作以及阻礙的低效流程。盡管檢索增強生成（RAG）有潛力通過相關(guān)且準(zhǔn)確的示例持續(xù)更新和完善機器人知識（并在不影響性能的情況下擴充知識庫），但人們卻忽視了其在機器人技術(shù)中的應(yīng)用。

該示意圖展示了系統(tǒng)框架，包括高層（藍色水平虛線以上）和低層（藍色水平虛線以下）系統(tǒng)架構(gòu)。用戶查詢通過語音識別軟件輸入到轉(zhuǎn)換器中。轉(zhuǎn)換器（GPT-4）接收該輸入，并將其與（i）環(huán)境圖像（C）（通過Azure Kinect深度相機獲�。唬╥i）代碼示例知識庫（包括存儲在數(shù)據(jù)庫中的各種函數(shù)）相結(jié)合。轉(zhuǎn)換器可以將高階抽象任務(wù)分解為可執(zhí)行的高層子任務(wù)，從知識庫中檢索相關(guān)代碼示例，對其進行調(diào)整，并編寫適合這些任務(wù)的Python（3.8版本）代碼。生成的代碼隨后被發(fā)送到機器人控制器（A）�？刂破魈幚碓摯a，并向機器人發(fā)送控制信號（λ）。動作（a）通過力（F）和視覺（V）反饋進行控制。該模型利用視覺識別不同物體的屬性（例如，咖啡杯的位姿X），從而能夠準(zhǔn)確抓取物體。機器人利用\((f)\)和扭矩（τ）反饋（通過ATI力傳感器獲�。﹣硎炀毑僮魑矬w（例如，確定要倒多少水）。由于視覺信號（\((\eta_{vision })\)、機器人關(guān)節(jié)角度（\((\eta_{ a n s e k })\)）和力傳感器信號（\(( \eta_{force })\)）中存在噪聲，反饋是必要的。反饋通過線速度（\((v_{x y z})\)）和角速度（\((v_{s p y})\)）的速度指令更新ROS中的運動，以實現(xiàn)預(yù)期目標(biāo)。這些指令基于適當(dāng)?shù)牧蜁r空模式生成軌跡，以實現(xiàn)子目標(biāo)。反饋回路的使用（包括40Hz的末端執(zhí)行器\((p)\)和姿態(tài)（\((q)\)）更新）使機器人能夠?qū)Ω蓴_做出響應(yīng)（例如，機器人跟蹤杯子，以確定杯子被用戶移動后的新位置）。
為人類沖一杯咖啡，我們使用一個七自由度的Kinova機械臂來驗證這一假設(shè)，該機械臂在不確定的環(huán)境中執(zhí)行這項復(fù)雜且需要較大力量的任務(wù)，并利用了集成的力反饋和視覺反饋。結(jié)果抽象推理的語言整合我們發(fā)現(xiàn)，我們的方法能讓機器人對一個抽象的高階語言指令做出響應(yīng)（“我累了，朋友們很快要來吃蛋糕。你能給我做一杯熱飲，再在盤子上隨意畫一個動物裝飾一下嗎”），并完成制作熱飲和在盤子上畫圖案這一預(yù)期任務(wù)。展示這一互動過程的視頻詳見補充視頻1。機器人對該指令做出了如下語音回應(yīng)：“我正在準(zhǔn)備制作熱飲，同時也準(zhǔn)備在盤子上隨意畫一個動物。首先，我會找一個馬克杯，然后舀咖啡、倒熱水。之后，我會拿一樣?xùn)|西，很可能是一支筆，在盤子上畫一個隨機的動物。聽起來很快就會有一段有蛋糕相伴的歡樂溫馨時光了�！敝档米⒁獾氖�，當(dāng)機器人響應(yīng)為疲憊的人準(zhǔn)備熱飲這一請求時，它選擇了沖一杯咖啡，并且能夠?qū)⑦@種高階行為分解為一系列子任務(wù)。
研究發(fā)現(xiàn)，整合GPT-4能夠使機器人具備所需的抽象推理能力。GPT-4是一種語言模型，它能讓機器人處理用戶查詢和環(huán)境數(shù)據(jù)，將任務(wù)分解為可執(zhí)行的步驟。我們的系統(tǒng)能夠以生成代碼并借助力反饋和視覺反饋執(zhí)行動作，從而有效地為機器人賦予一種智能。我們的方法成功創(chuàng)建了一個定制化的GPT-4，其擁有一個包含豐富靈活運動示例的綜合數(shù)據(jù)庫。該數(shù)據(jù)庫成功納入了傾倒、舀取、繪制、交接、拾取與放置以及開門等動作。

我們發(fā)現(xiàn)該機器人能夠使用檢索增強生成（RAG）技術(shù)為下游任務(wù)識別并提取相關(guān)示例。我們通過自己的框架探索了多種方法，以確定智能機器如何才能充分利用檢索增強生成技術(shù)。這些方法包括可定制的開源方案（如Haystack56和Vebra57），以及專有技術(shù)（如Azure云人工智能）。我們發(fā)現(xiàn)所有這些方法都是可行的。
在實驗中，我們選擇了最簡單的方法：將精心整理的知識庫按邏輯組織在一個markdown文件中，然后通過GPT平臺的“知識”功能將其上傳至自定義GPT應(yīng)用程序接口。這使得該平臺能夠自動處理檢索過程，并在語義搜索（返回相關(guān)文本片段）和文檔審閱（提供完整文檔或大篇幅文本中的特定章節(jié)）之間進行選擇。我們選擇這種解決方案是因為它提供了最先進的嵌入模型和基礎(chǔ)模型，使用方便，并且能夠在我們的任務(wù)中持續(xù)產(chǎn)生良好的性能。然而，我們的框架允許整合多種檢索增強生成技術(shù)，并確保“智能機器人”能夠高效完成復(fù)雜任務(wù)。精心整理的知識庫與檢索增強生成技術(shù)相結(jié)合，使語言模型能夠訪問大量低階和高階函數(shù)，每一個函數(shù)都具備已知的不確定性。我們的測試表明，這種能力使機器人能夠有效地處理多種場景。
完成一項復(fù)雜任務(wù)研究發(fā)現(xiàn)，該機器人能夠熟練執(zhí)行用戶指定的高級任務(wù)，并且可以訪問一個全面的運動原語數(shù)據(jù)庫。該數(shù)據(jù)庫包含各種靈活的特定運動示例，機械臂成功執(zhí)行了這些運動。數(shù)據(jù)庫中的示例包括：傾倒液體、舀取粉末、打開具有未知機制的門、拾取和放置物體、繪制任何要求的形狀、進行物品交接，以及沿各種方向、以各種姿態(tài)移動或相對于指定物體移動。機器人能夠復(fù)制并調(diào)整執(zhí)行用戶所要求的復(fù)雜任務(wù)所需的動作。該系統(tǒng)使機器人能夠動態(tài)適應(yīng)環(huán)境變量和不確定性。這提高了機器人在不可預(yù)測條件下的效能，并增強了其在現(xiàn)實環(huán)境中的靈活性和適應(yīng)性。
零樣本姿態(tài)檢測，我們發(fā)現(xiàn)將Azure Kinect DK深度相機設(shè)置為分辨率\(640 ×576px^{2}\)、深度感應(yīng)采樣率30幀/秒時，能夠為我們的方法提供足夠的視覺輸入。我們使用14厘米的AprilTag完成了校準(zhǔn)，發(fā)現(xiàn)這使得相機與機器人基座之間的對準(zhǔn)精度能夠達到小于10⁻⁶。這種設(shè)置能夠?qū)崿F(xiàn)精確的物體位置檢測，在場景。Grounded-Segment-Anything58 已成功部署到我們的語言-視覺模塊中視覺系統(tǒng)生成了一種三維(3D) 體素表示，該表示能有效識別我們設(shè)置中的物體姿態(tài)(所使用的 Grounding DINO 檢測模塊在 COCO 零樣本遷移基準(zhǔn)測試中達到了52.5的平均精度)。例如，我們發(fā)現(xiàn)該模塊在我們的實驗條件下，能100%正確識別我們使用的白色杯子。

研究發(fā)現(xiàn)，該機器人在執(zhí)行任務(wù)時展現(xiàn)出多種運動動態(tài)，并伴有不同類型的力反饋。圖4展示了機器人在準(zhǔn)備咖啡和遞筆時所承受的力。機器人在各種任務(wù)中處理了范圍廣泛的外力。例如，在放下馬克杯時，向上的峰值力被用作放置成功的指標(biāo)。相比之下，在操作抽屜時，沿 x 軸和 y軸的力和扭矩至關(guān)重要，這突出表明它們對任務(wù)的成功執(zhí)行至關(guān)重要。力反饋的可變性體現(xiàn)了我們可擴展方法的優(yōu)勢，這種方法能夠適應(yīng)各種運動的需求。

在4ms-1 的傾斜速度下，所達到的傾倒精度約為每100克5.4克。我
們假設(shè)存在準(zhǔn)靜態(tài)平衡，以估算在任何給定時刻傾倒的水量。然而，隨著傾斜速度的增加，精度會下降，在30ms-1 的傾斜速度下，誤差接近-20qs-1。這種精度下降可歸因于準(zhǔn)靜態(tài)假設(shè)的失效，以及傾倒介質(zhì)和容器的質(zhì)量分布對測量精度的影響。生成藝術(shù)發(fā)現(xiàn)DALL-E⁵9 能夠成功生成圖像，我們可以從中提取出繪畫軌跡。事實證明，這使機器人能夠繪制用戶指定的任何設(shè)計。我們發(fā)現(xiàn)，DALL-E能夠根據(jù)從用戶那里提取的關(guān)鍵詞(如“隨機鳥類”或“隨機植物”)創(chuàng)建剪影。剪影的輪廓會被提取出來，并進行轉(zhuǎn)換以匹配目標(biāo)表面的尺寸。這使得機器人能夠在各種物理物體上復(fù)制該設(shè)計。我們發(fā)現(xiàn)，力反饋在繪畫時能施加均勻的筆尖壓力，這使得對z 分量的控制  成為可能。
評估我們將自己的機器人計劃生成方法與VoxPoser 進行了評估，后者不使用檢索增強生成 (RAG) 或力反饋。為了比較這些方法，我們提示大語言模型生成80 個類人查詢，這些查詢反映了知識庫中指定的任務(wù)范圍。隨后，我們用這些查詢來生成機器人計劃。我們將使用 RAG  的性能結(jié)果(我們的方法，其中知識庫被動態(tài)整合到大語言模型的決策過程中)與基線 (VoxPoser其中知識庫被靜態(tài)納入大語言模型的上下文窗口)進行了比較。值得注意的是，第二種方法缺乏可擴展性，并且隨著知識庫的擴大會變得不切實際。

我們根據(jù)答案的忠實性對結(jié)果進行了評估，這一指標(biāo)用于衡量答案的真實性和準(zhǔn)確性(確保答案能如實呈現(xiàn)事實，不存在編造或“幻覺”錯誤)。研究發(fā)現(xiàn)，使用檢索增強生成(RAG)技術(shù)提高了回答的忠實性。對于GPT-4(gpt-4-0613),  借助RAG,其忠實性得分從0.74提升至0.88。同樣，GPT-3.5-turbo(gpt-3.5-turbo-0125) 在使用RAG  時宿到了0.86,而不使用時為0.78,Zephyr-7B-beta 也有提升。從0.37提升至0.44。忠實度的提升對于機器人應(yīng)用而言尤為關(guān)鍵，因為在物理交互過程中，精準(zhǔn)執(zhí)行至關(guān)重要。我們測試了我們的方法——ELLMER框架，該框架結(jié)合了人工智能和機器人操控技術(shù)，用于打造智能機器人。我們的方法成功地將大型語言模型(LLMs)的認知能力與機器人的感知運動技能相結(jié)合，使機器人能夠理解高階口頭指令，并在熟練應(yīng)對不確定性的同時執(zhí)行復(fù)雜的長期任務(wù)。我們使用了經(jīng)反饋循環(huán)和檢索增強生成(RAG)技術(shù)增強的大型語言模型，來編寫富有表現(xiàn)力的代碼，并推動機器人完成實現(xiàn)高級目標(biāo)(制作熱飲)所需的操控子任務(wù)。ELLMER能夠?qū)崟r適應(yīng)環(huán)境變化，并通過檢索增強生成(RAG) 技術(shù)利用精確解決方案庫。這確保了任務(wù)的準(zhǔn)確執(zhí)行和廣泛的適應(yīng)性。
ELLMER 將已知約束編碼到代碼示例(“運動函數(shù)”)中，并能夠快速適  應(yīng)多種不確定性，例如原料數(shù)量的波動或打開未知抽屜——而其他方法若沒有大量額外訓(xùn)練則缺乏這些能力29,33,60,61。視覺、力和語言模態(tài) 的整合提升了操作性能。力傳感器提高了任務(wù)精度(例如，精確傾倒)

當(dāng)視覺被遮擋時，(系統(tǒng)能感知到)準(zhǔn)確的液體量),而視覺系統(tǒng)則負責(zé) 識別物體的位置和運動。語言能力使系統(tǒng)能夠在代碼中產(chǎn)生反饋，這對于適應(yīng)新任務(wù)至關(guān)重要。精心構(gòu)建的知識庫通過根據(jù)特定任務(wù)規(guī)范定制信息檢索，提高了大語言模型的性能，并確保了高質(zhì)量且與上下文相關(guān)的輸出。精心構(gòu)建的知識庫是一個實用的要素，它能增強可控性、準(zhǔn)確性和可擴展性。在這種情況下，檢索增強生成 (RAG) 可以被視為提供了一種知識文化環(huán)境，機器人可以從中汲取知識。特別是，這與人類通過知識的文化傳播所獲得的“智能”相呼應(yīng)。因此，我們的研究表明，整合先進的語言模型和感覺運動控制策略，能讓機器人利用大語言模型的指數(shù)級進步，實現(xiàn)更復(fù)雜的交互。這將開啟自動化的新時代，帶來前所未有的自主性和精確度，同時也凸顯了安全管理這些進步的必要性。

ELLMER 的潛力還體現(xiàn)在能夠創(chuàng)建復(fù)雜且富有藝術(shù)性的動作上。例如，像DALL-E 這樣的模型可以從視覺輸入中推導(dǎo)出軌跡，為機器人軌跡生成開
辟了新途徑。這種方法可廣泛應(yīng)用于蛋糕裝飾或拿鐵藝術(shù)等任務(wù)。在未來的工作中，融入查詢和圖像將能實現(xiàn)新穎的軌跡生成，從而提高多功能性。此外，最近大語言模型 (LLM) 的增強這將顯著提高人機交互的流暢性和有效性。我們的咖啡制作和餐盤裝飾示例僅代表復(fù)雜機器人可能需要執(zhí)行的復(fù)雜任務(wù)類型的一小部分。ELLMER于擴展，因此它涵蓋了各種可能的長期任務(wù)。因此，ELLMER 可以整合一個反饋循環(huán)數(shù)據(jù)庫或“從演示中學(xué)習(xí)”的示例，以促進各種復(fù)雜的機器人操作。

ELLMER 基于計算機視覺的兩個假設(shè)：(1)視覺模塊能準(zhǔn)確識別和分類場景中的物體；(2)具備utensil的全面功能映射。我們?yōu)槟Ｐ唾x予了關(guān) 于水壺、勺子和門把手功能的先驗知識，但最近的研究表明，可供性可以通過最少的數(shù)據(jù)來學(xué)習(xí)63,64。我們的重點不在于目標(biāo)檢測，但我們注意到檢測響應(yīng)時間阻礙了最佳性能。此外，ELLMER能夠適應(yīng)實時變化，但在主動適應(yīng)方面存在困難(例如，在沒有預(yù)先編程的情況下中途切換任務(wù))。在未來的迭代中，更頻繁地查詢語言模型將允許根據(jù)新輸入重新評估和修改整體計劃。我們還注意到，仍有一些挑戰(zhàn)需要解決，例如復(fù)雜力動力學(xué)的精細建模(例如，末端執(zhí)行器上的力作為流量、容器尺寸和液體粘度的函數(shù))以及空間感知工具(如OctoMaps, 一  種用于3D占據(jù)圖的機器人庫)的集成。整合觸覺傳感器并使用軟機器人技術(shù)將提高機器人施加適當(dāng)力而不造成損壞的能力。ELLMER 提供了一個  靈活的平臺，用于整合這些研究進展，使機器人能夠利用“感官”反饋來解讀材料特性，并精確調(diào)整它們所施加的力。

ELLMER 的當(dāng)前迭代版本使機器人能夠“一次性”成功完成復(fù)雜任務(wù)。這充分展示了智能機器的能力，它們將感覺運動能力與大型語言模型(LLMs) 提供的抽象推理相結(jié)合。盡管如此，我們預(yù)計隨著ELLMER  內(nèi) 部整合的組件不斷完善，機器人的能力將呈指數(shù)級增長。我們的框架與硬件無關(guān)，可通過 Haystack  等開源檢索增強生成 (RAG) 解決方案輕松定制，支持對嵌入模型、檢索器、分塊技術(shù)和大型語言模型進行快速調(diào)整。ELLMER 為研究人員合作開發(fā)智能機器提供了一個靈活的框架。

該機器人的目標(biāo)是在動態(tài)環(huán)境(如家庭廚房)中響應(yīng)人類的高級指令。我們設(shè)計了一個逼真的場景，其中包含水壺、白色馬克杯、抽屜、廚房用具和咖啡壺等物品。這個場景旨在測試機器人在有人類在場互動的情況下，在一個雖有合理限制但卻逼真的環(huán)境中執(zhí)行各種任務(wù)的能力。我們假設(shè)機器人的低級控制機制能夠處理避障問題。該流程包括一個用于任務(wù)執(zhí)行的語言處理組件、一個用于姿態(tài)檢測的視覺系統(tǒng)以及一個用于物體操控的力模塊。所有這些都集成在一個機器人操作系統(tǒng)(ROS) 進程中。

具體而言，我們的方法建立在“動態(tài)策略代碼”方法65之上，該方法能夠促進機器人行動的適應(yīng)性。在我們的實現(xiàn)中，我們利用了GPT-4和  OpenAI的RAG基礎(chǔ)設(shè)施。我們借助RAG32來發(fā)揮大型語言模型的能力，從數(shù)據(jù)庫中動態(tài)選擇和調(diào)整最合適的策略，或者根據(jù)相關(guān)示例生成自己的代碼。與現(xiàn)有的純大型語言模型驅(qū)動的方法相比參宿方法25、27、29,我們將力和視覺整合到了該框架中，使得系統(tǒng)能夠適應(yīng)動態(tài)環(huán)境中的各種復(fù)雜任務(wù)。這種方法使機器人系統(tǒng)具備高級語境理解能力25,并能夠借助實時反饋執(zhí)行復(fù)雜任務(wù)，確保準(zhǔn)確性和精確性。該方法確保每個動作都與任務(wù)的特定要求和環(huán)境條件相匹配。使用了一臺Kinova七自由度機器人。使用了一臺AzureKinect傳感器，其分辨率為640×576px2，幀率為30 幀/秒，同時還使用了一個ATI多軸力傳感器。機器人末端安裝了一個140毫米的Robotiq夾爪。力傳感器通過3D打印的法蘭連接在Robotiq夾爪和Kinova機械臂上。在力傳感器上靠近夾爪的一側(cè)放置了一個小圓柱體，以防止夾爪的運動觸碰到力傳感器，從而導(dǎo)致讀數(shù)不準(zhǔn)確。

我們使用了向量檢索增強生成(RAG) 技術(shù)，該技術(shù)包括使用編碼器將(q)  以及知識庫的片段(81,82, …,8m.)) (稱為塊)嵌入到向量表示中。然  后，基于余弦相似度將塊與查詢進行比較，并選擇排名前 k  的塊作為生  成響應(yīng)的上下文相關(guān)信息。在我們的框架中可以使用的其他檢索技術(shù)包括傳統(tǒng)的 RAG (基于關(guān)鍵字/規(guī)則的 RAG) 或混合檢索方法。RAG  管道可以通過選擇不同的文檔存儲(存儲和組織知識庫的媒介)進行定制。在我們的實驗測試中，我們使用了內(nèi)置的OpenAI RAG流程，并將精心整理的知識庫組織在一個markdown文件中作為文檔存儲。不過，我們的框架中可以使用多種其他RAG方法，借助Haystack56 和Vebra57等工具。這些工具允許用戶選擇多種文檔存儲——從用于簡單文本型知識的“markdown文件”到用于復(fù)雜索引數(shù)據(jù)的“Elasticsearch”

為了估算流速，我們假設(shè)了靜態(tài)平衡狀態(tài)，并在傾倒過程中保持較低的操作速度。從數(shù)學(xué)角度，這可表示為F₁m =mg 以及△Fun≈△mg。在涉及變加速度的情況下，力與流速之間的關(guān)系會變得更加復(fù)雜。這需要一個動  態(tài)模型，該模型需考慮各種變化的輸入(如流速、容器的質(zhì)心以及末端執(zhí)  行器的慣性),以將動態(tài)力輸入映射到傾倒流速上。

該系統(tǒng)持續(xù)管理沿三個軸的力向量，并根據(jù)其知識庫中的標(biāo)準(zhǔn)調(diào)整所施加的力。大語言模型會動態(tài)選擇必要的力的大小和方向，以滿足特定的下游任務(wù)需求。例如，知識庫可能會根據(jù)物體特性或任務(wù)要求，指定不同的施加力大小。這種方法使系統(tǒng)能夠自主調(diào)整其動作，以適應(yīng)廣泛的操作標(biāo)準(zhǔn)。

ROS 操作在這項工作中，我們通過啟動KinovaROS Kortex驅(qū)動程序來啟動機器人流程。這建立了一個節(jié)點，該節(jié)點能夠在 ROS  網(wǎng)絡(luò)和Kinova  Gen3 機器人之間實現(xiàn)通信。該節(jié)點發(fā)布多個可供訂閱者訪問的主題，并提供可被調(diào)用以修改機器人配置的服務(wù)�；P(guān)節(jié)以40赫茲的頻率更新。同時，Robotiq2F-140 毫米夾爪節(jié)點以50赫茲的頻率啟動。該節(jié)點通過USB  連接與夾爪建立通信鏈路，并啟動一個動作服務(wù)器，以實現(xiàn)對夾爪的精確控制并促進操作數(shù)據(jù)的交換。

我們機器人系統(tǒng)的一個關(guān)鍵元素是視覺模塊節(jié)點。“classes” 變量用于識別環(huán)境中選定物體的目標(biāo)姿態(tài)。該變量可以動態(tài)更新，從而使系統(tǒng)能夠適應(yīng)場景中的變化。由 “classes” 變量確定的物體姿態(tài)坐標(biāo)是大約每~去 n, 發(fā)布一次。這在很大程度上是由干Grounding DINO 在檢測物體和建立邊界框時的處理時間。此外，我們使用AprilTag來確定相機相對于機器人基座的位置。這表示為pR=TAR×(TCA×PC), 其中PC是相機坐標(biāo)系中的點，TCA 是從相機坐標(biāo)系到 AprilTag的變換矩陣，TAR 是從AprilTag到機器人基座  的變換矩陣，而PR 是機器人基座坐標(biāo)系中的點

時一個力節(jié)點以100赫茲的頻率啟動，提供多軸力和扭矩讀數(shù)，這些讀數(shù)定位到 ATI 力傳感器。讀數(shù)通過基于四元數(shù)的3×3旋轉(zhuǎn)矩陣進行轉(zhuǎn)換，以與機器人的全局基坐標(biāo)系對齊，并在固定自由度上提供過去五個時間步的原始值和平均值。它利用從運動學(xué)數(shù)據(jù)計算出的旋轉(zhuǎn)矩陣，在機器人基座的全局坐標(biāo)系中計算力。

ROS 有助于持續(xù)處理來自語言處理、視覺系統(tǒng)、力 metrics  和關(guān)節(jié)末端執(zhí)行器位置的多模態(tài)反饋數(shù)據(jù)。這些運動基于一個基本的六自由度扭轉(zhuǎn)指令運行，該指令控制速度以及用于開合的變速變力夾持器程序。這使得硬編碼安全約束(如最大速度和力限制以及工作空間邊界)的集成成為可能。速度被限制在±0.05 ms ±0.05m₈-1 范圍內(nèi)，角速度被限制在±60°s ±60°₈-1范圍內(nèi)。末端執(zhí)行器的力也被限制在20 N。這被編碼到基本運動原語中；因此，語言模型中的錯誤不會覆蓋這一點。末端執(zhí)行器還被限制在z=[0.0.1.11、u=[-0.3.0.31和z=[0.1.01 的預(yù)定義工作空間邊界內(nèi)。這由一個發(fā)布器以10 Hz 的頻率在未來的時間步中進行檢查。

ELLMER 框架依托大語言模型的規(guī)劃能力、RAG 的知識檢索以及多模態(tài)反饋閉環(huán)控制，為機器人在動態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)提供了全新思路。其核心在于將語言模型的 “認知智能” 與機器人的 “軀體執(zhí)行” 深度融合，有力推動了具身智能領(lǐng)域的發(fā)展。

在不可預(yù)測環(huán)境中完成復(fù)雜任務(wù)，對機器人系統(tǒng)構(gòu)成了嚴(yán)峻挑戰(zhàn)，也亟需機器智能實現(xiàn)突破性進步。感覺運動能力是人類智能的核心基礎(chǔ)，受此啟發(fā)，類生物機器智能有望成為人工智能與機器人感知運動能力高效融合的關(guān)鍵路徑。

回復(fù)此樓

» 猜你喜歡

課題組接收材料類調(diào)劑研究生已經(jīng)有9人回復(fù)
材料工程274求調(diào)劑已經(jīng)有5人回復(fù)
工程熱物理與能源利用論文潤色/翻譯怎么收費? 已經(jīng)有200人回復(fù)
085600求調(diào)劑已經(jīng)有6人回復(fù)
378分一志愿大連理工大學(xué)車輛工程調(diào)劑已經(jīng)有0人回復(fù)
08工科求調(diào)劑已經(jīng)有4人回復(fù)
一志愿福大080500材料科學(xué)與工程初試282分已經(jīng)有13人回復(fù)
長春工業(yè)大學(xué)材料學(xué)院招收材料、物理、機械方向的調(diào)劑考生已經(jīng)有0人回復(fù)

» 本主題相關(guān)商家推薦: (我也要在這里推廣)

1樓 2026-03-09 10:56:22

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

不惑可樂

至尊木蟲 (文壇精英)

孤獨的跑者

應(yīng)助: 5 (幼兒園)
金幣: 20124.7
散金: 4687
紅花: 106
沙發(fā): 74
帖子: 10247
在線: 545.6小時
蟲號: 608646
注冊: 2008-09-21
專業(yè): 零件成形制造

小語言模型。
發(fā)自小木蟲手機客戶端

回復(fù)此樓

2樓2026-03-09 15:49:19

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

相關(guān)版塊跳轉(zhuǎn) 我要訂閱樓主 Blue機器人的主題更新

返回列表

普通表情龍兔虎貓高級回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 294 英二數(shù)二物化求調(diào)劑 +6	米飯團不好吃 2026-03-09	6/300	2026-03-09 23:55 by barlinike
[考研] 288求調(diào)劑 +9	王曉陽- 2026-03-09	11/550	2026-03-09 22:43 by NaiHe95273
[考博] 2026博士申請 +5	起泡酒 2026-03-08	5/250	2026-03-09 20:09 by 風(fēng)傲孤星
[考研] 0703求調(diào)劑 +10	c297914 2026-03-06	11/550	2026-03-09 18:37 by 30660438
[考研] 320求調(diào)劑 +4	魏zy 2026-03-08	4/200	2026-03-09 16:14 by ruiyingmiao
[考研] 313分生物學(xué)求調(diào)劑 +4	Yyt楊1 2026-03-09	5/250	2026-03-09 13:42 by macy2011
[考博] 申博 +5	添菜了哈 2026-03-04	8/400	2026-03-09 10:52 by jamesqi
[考研] 0817找調(diào)劑 +6	kk扛 2026-03-08	6/300	2026-03-09 06:38 by houyaoxu
[考博] 26申博自薦 +9	烷基八氮- 2026-03-06	11/550	2026-03-08 23:20 by gaobiao
[考研] 醫(yī)學(xué)檢驗專業(yè)26考研求調(diào)劑 +3	琪ya 2026-03-03	5/250	2026-03-08 22:56 by 清風(fēng)月
[考研] 2026考研求調(diào)劑-材料類-本科211一志愿985-初試301分 +7	蟲友233 2026-03-07	7/350	2026-03-08 22:35 by 小木蟲tim
[碩博家園] 2026級碩士研究生招生/調(diào)劑 +3	lbj6746988 2026-03-03	4/200	2026-03-08 21:09 by 上岸上岸……..
[考研] 材料化工求調(diào)劑 +7	博斯特525 2026-03-06	8/400	2026-03-08 03:51 by lfhuang
[考研] 2026調(diào)劑】考試A區(qū)0703化學(xué)類323分誠求接收 +3	卷柏卷柏 2026-03-05	4/200	2026-03-07 17:00 by yuandd_2001
[考研] 材料與化工304求B區(qū)調(diào)劑 +4	邱gl 2026-03-06	4/200	2026-03-06 15:51 by 聰明的大松鼠
[考研] 289求調(diào)劑 +3	馳光絕景 2026-03-04	4/200	2026-03-06 12:34 by 馳光絕景
[考研] 材料085601一志愿哈工大317 +4	壓迫感行 2026-03-04	4/200	2026-03-05 20:08 by 黑衣饅頭人
[考研] 一志愿清華深研院材料專碩294分，專業(yè)課111分，本科中南大學(xué)材料，有六級，有工作經(jīng)驗 +3	H14528 2026-03-04	3/150	2026-03-05 10:35 by ms629
[考研] 316求調(diào)劑 +3	林小星發(fā)大財 2026-03-04	3/150	2026-03-05 07:49 by bxbo
[考研] 266求調(diào)劑 +7	哇塞王帥 2026-03-03	7/350	2026-03-04 20:30 by 一切OK

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频