版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門版塊排行榜

返回列表

Blue機(jī)器人

新蟲 (初入文壇)

應(yīng)助: 0 (幼兒園)
金幣: 147.5
帖子: 47
在線: 3.4小時(shí)
蟲號(hào): 36446398
注冊(cè): 2025-05-22
專業(yè): 人工智能與知識(shí)工程

[交流] 具身大型語言模型讓機(jī)器人玩轉(zhuǎn)復(fù)雜未知場(chǎng)景已有1人參與

BlueRobots上海藍(lán)色蘿卜自動(dòng)化科技有限公司是一家專注于機(jī)器人領(lǐng)域的技術(shù)型企業(yè)，致力于為客戶提供高性能硬件和人工智能算法的全套機(jī)器人相關(guān)軟硬件解決方案。公司核心團(tuán)隊(duì)成員來自哈爾濱工業(yè)大學(xué)、上海交通大學(xué)等知名院校，以及ABB、Universal Robots等國(guó)際機(jī)器人公司，擁有十余年的研發(fā)制造經(jīng)驗(yàn)。  BlueRobots在kinova機(jī)器人應(yīng)用領(lǐng)域深耕，提供包括機(jī)器人系統(tǒng)集成、機(jī)器視覺、靈巧手、六維力傳感器等在內(nèi)的成套解決方案。公司通過先進(jìn)的控制技術(shù)和核心技術(shù)驅(qū)動(dòng)，專注于協(xié)作機(jī)器人的應(yīng)用開發(fā)與市場(chǎng)推廣，幫助客戶實(shí)現(xiàn)工業(yè)自動(dòng)化和智能化轉(zhuǎn)型。
通過BlueRobots平臺(tái)，您可以輕松購(gòu)買各種機(jī)器人相關(guān)產(chǎn)品，省心省事省力。我們專注于為用戶提供專業(yè)、便捷且經(jīng)濟(jì)實(shí)惠的機(jī)器人系統(tǒng)及定制服務(wù)，幫助您實(shí)現(xiàn)更多可能。

英國(guó)愛丁堡大學(xué)最新研究登上《Nature Machine Intelligence》，提出ELLMER 具身大型語言模型機(jī)器人框架。依托 GPT-4 理解與規(guī)劃、RAG 知識(shí)增強(qiáng)、視覺 + 力反饋閉環(huán)，機(jī)器人得以在動(dòng)態(tài)環(huán)境中自主完成復(fù)雜長(zhǎng)時(shí)序任務(wù)，為具身智能落地提供新范。
在不可預(yù)測(cè)環(huán)境中執(zhí)行復(fù)雜任務(wù)，對(duì)機(jī)器人系統(tǒng)提出了巨大挑戰(zhàn)，也迫切需要機(jī)器智能實(shí)現(xiàn)突破性發(fā)展。感覺運(yùn)動(dòng)能力是人類智能的關(guān)鍵組成部分，因此，受生物啟發(fā)的機(jī)器智能有望成為人工智能與機(jī)器人感覺運(yùn)動(dòng)能力高效融合的重要路徑。

參考文獻(xiàn)：https://www.nature.com/articles/s42256-025-01005-x

本文提出具身大型語言模型賦能機(jī)器人（ELLMER）框架，該框架依托 GPT‑4 與檢索增強(qiáng)生成（RAG）技術(shù)，使機(jī)器人可在動(dòng)態(tài)不確定環(huán)境中自主完成長(zhǎng)周期復(fù)雜任務(wù)。該方法從知識(shí)庫(kù)中抽取與任務(wù)上下文相關(guān)的范例，生成融合力反饋與視覺反饋的執(zhí)行方案，并具備動(dòng)態(tài)環(huán)境自適應(yīng)能力。研究團(tuán)隊(duì)在咖啡制作、餐盤裝飾等典型任務(wù)中對(duì) ELLMER 進(jìn)行驗(yàn)證，任務(wù)涵蓋開啟抽屜、傾倒液體等一系列連續(xù)子操作，不同子任務(wù)可分別受益于多模態(tài)感知與多樣化決策機(jī)制。實(shí)驗(yàn)結(jié)果表明，ELLMER 框架可穩(wěn)定支撐機(jī)器人完成上述復(fù)雜任務(wù)。該工作展現(xiàn)了一種可擴(kuò)展、高效率的智能機(jī)器人實(shí)現(xiàn)路徑，為機(jī)器人在不確定環(huán)境中自主完成復(fù)雜任務(wù)提供了重要進(jìn)展。

人類智能在感覺運(yùn)動(dòng)過程中具有其本體論和種系發(fā)生學(xué)基礎(chǔ)，具身認(rèn)知對(duì)“機(jī)器智能”具有理論意義，因?yàn)樗砻�，如果“認(rèn)知”過程不存在，機(jī)器將無法展現(xiàn)出某些方面的智能。
嵌入在機(jī)器人設(shè)備中。這是一個(gè)仍有待驗(yàn)證的推測(cè)，但“智能機(jī)器人”為探索有關(guān)人類智能的各種假設(shè)以及推動(dòng)機(jī)器智能領(lǐng)域的發(fā)展提供了一種有效的方式。更實(shí)際地說，有效的人機(jī)協(xié)作最終將要求機(jī)器人至少具備接近“類人”的能力。因此，對(duì)未來“智能機(jī)器”的一個(gè)合理預(yù)期是，它們有潛力在與環(huán)境中的物體和人類進(jìn)行熟練互動(dòng)時(shí)，執(zhí)行抽象的認(rèn)知計(jì)算。
到目前為止，多方面的研究工作已經(jīng)取得了進(jìn)展：（1）機(jī)器人的感知運(yùn)動(dòng)能力，以及（2）人工智能。我們著手檢驗(yàn)這樣一個(gè)假設(shè)，即現(xiàn)在可以將這些方法結(jié)合起來，使機(jī)器人展現(xiàn)類人智能的能力實(shí)現(xiàn)跨越式提升。我們進(jìn)一步假設(shè)，整合（1）和（2）將使機(jī)器人能夠承擔(dān)在實(shí)際中有用的復(fù)雜任務(wù)，這些任務(wù)在廣泛的場(chǎng)景，但目前超出了機(jī)器人系統(tǒng)的能力范圍。試想這樣一種情景：有人回到家，感到疲憊又口渴。廚房里有一個(gè)配備了先進(jìn)操控系統(tǒng)的機(jī)器人，它接到了準(zhǔn)備飲品的指令。這個(gè)機(jī)器人決定要沖一杯提神的咖啡，然后遞給它的人類同伴。這項(xiàng)對(duì)人類而言十分簡(jiǎn)單的任務(wù)，卻包含了一系列挑戰(zhàn)，這些挑戰(zhàn)……
對(duì)接收的信息進(jìn)行解讀，并分析周圍環(huán)境。接下來，它可能需要在環(huán)境中搜尋以找到一個(gè)杯子。這可能包括打開具有未知開啟機(jī)制的抽屜。然后，機(jī)器人必須測(cè)量并混合精確比例的水和咖啡。這需要精細(xì)的力控制，以及在出現(xiàn)……時(shí)對(duì)不確定性的適應(yīng)能力。這種場(chǎng)景是動(dòng)態(tài)環(huán)境中復(fù)雜任務(wù)多面性的典型例子。傳統(tǒng)上，機(jī)器人系統(tǒng)在這些任務(wù)中表現(xiàn)不佳，因?yàn)樗鼈儫o法遵循高級(jí)指令，只能依賴預(yù)編程的響應(yīng)。
強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)已經(jīng)證明了交互和演示在教導(dǎo)機(jī)器人執(zhí)行復(fù)雜任務(wù)方面的有效性。這些方法很有前景15，但在適應(yīng)新任務(wù)和應(yīng)對(duì)多樣化場(chǎng)景時(shí)往往存在困難。當(dāng)機(jī)器人需要……時(shí)，模仿學(xué)習(xí)也面臨著挑戰(zhàn)。
為這些挑戰(zhàn)提供了一個(gè)潛在的解決方案。人類操作的復(fù)雜性在一定程度上源于認(rèn)知過程的類型，由于其先進(jìn)的語境理解能力，大型語言模型（LLMs）提供了一種處理復(fù)雜指令并相應(yīng)調(diào)整行動(dòng)的方法，并且大量近期研究將大型語言模型用于短視域任務(wù)。日常操作任務(wù)。同樣，機(jī)器人Transformer（RT-2）利用大規(guī)模網(wǎng)絡(luò)和機(jī)器人學(xué)習(xí)數(shù)據(jù)，使機(jī)器人能夠以顯著的適應(yīng)性執(zhí)行訓(xùn)練場(chǎng)景之外的任務(wù)。分層擴(kuò)散策略引入了一種模型結(jié)構(gòu)來生成具有上下文感知的運(yùn)動(dòng)軌跡，這能從高級(jí)LLM決策輸入中增強(qiáng)特定任務(wù)的運(yùn)動(dòng)。然而，在將LLM有效集成到機(jī)器人操作中仍存在挑戰(zhàn)。這些挑戰(zhàn)包括復(fù)雜的提示要求、缺乏實(shí)時(shí)交互反饋、缺乏利用力反饋的LLM驅(qū)動(dòng)工作以及阻礙的低效流程。盡管檢索增強(qiáng)生成（RAG）有潛力通過相關(guān)且準(zhǔn)確的示例持續(xù)更新和完善機(jī)器人知識(shí)（并在不影響性能的情況下擴(kuò)充知識(shí)庫(kù)），但人們卻忽視了其在機(jī)器人技術(shù)中的應(yīng)用。

該示意圖展示了系統(tǒng)框架，包括高層（藍(lán)色水平虛線以上）和低層（藍(lán)色水平虛線以下）系統(tǒng)架構(gòu)。用戶查詢通過語音識(shí)別軟件輸入到轉(zhuǎn)換器中。轉(zhuǎn)換器（GPT-4）接收該輸入，并將其與（i）環(huán)境圖像（C）（通過Azure Kinect深度相機(jī)獲�。唬╥i）代碼示例知識(shí)庫(kù)（包括存儲(chǔ)在數(shù)據(jù)庫(kù)中的各種函數(shù)）相結(jié)合。轉(zhuǎn)換器可以將高階抽象任務(wù)分解為可執(zhí)行的高層子任務(wù)，從知識(shí)庫(kù)中檢索相關(guān)代碼示例，對(duì)其進(jìn)行調(diào)整，并編寫適合這些任務(wù)的Python（3.8版本）代碼。生成的代碼隨后被發(fā)送到機(jī)器人控制器（A）。控制器處理該代碼，并向機(jī)器人發(fā)送控制信號(hào)（λ）。動(dòng)作（a）通過力（F）和視覺（V）反饋進(jìn)行控制。該模型利用視覺識(shí)別不同物體的屬性（例如，咖啡杯的位姿X），從而能夠準(zhǔn)確抓取物體。機(jī)器人利用\((f)\)和扭矩（τ）反饋（通過ATI力傳感器獲取）來熟練操作物體（例如，確定要倒多少水）。由于視覺信號(hào)（\((\eta_{vision })\)、機(jī)器人關(guān)節(jié)角度（\((\eta_{ a n s e k })\)）和力傳感器信號(hào)（\(( \eta_{force })\)）中存在噪聲，反饋是必要的。反饋通過線速度（\((v_{x y z})\)）和角速度（\((v_{s p y})\)）的速度指令更新ROS中的運(yùn)動(dòng)，以實(shí)現(xiàn)預(yù)期目標(biāo)。這些指令基于適當(dāng)?shù)牧蜁r(shí)空模式生成軌跡，以實(shí)現(xiàn)子目標(biāo)。反饋回路的使用（包括40Hz的末端執(zhí)行器\((p)\)和姿態(tài)（\((q)\)）更新）使機(jī)器人能夠?qū)Ω蓴_做出響應(yīng)（例如，機(jī)器人跟蹤杯子，以確定杯子被用戶移動(dòng)后的新位置）。
為人類沖一杯咖啡，我們使用一個(gè)七自由度的Kinova機(jī)械臂來驗(yàn)證這一假設(shè)，該機(jī)械臂在不確定的環(huán)境中執(zhí)行這項(xiàng)復(fù)雜且需要較大力量的任務(wù)，并利用了集成的力反饋和視覺反饋。結(jié)果抽象推理的語言整合我們發(fā)現(xiàn)，我們的方法能讓機(jī)器人對(duì)一個(gè)抽象的高階語言指令做出響應(yīng)（“我累了，朋友們很快要來吃蛋糕。你能給我做一杯熱飲，再在盤子上隨意畫一個(gè)動(dòng)物裝飾一下嗎”），并完成制作熱飲和在盤子上畫圖案這一預(yù)期任務(wù)。展示這一互動(dòng)過程的視頻詳見補(bǔ)充視頻1。機(jī)器人對(duì)該指令做出了如下語音回應(yīng)：“我正在準(zhǔn)備制作熱飲，同時(shí)也準(zhǔn)備在盤子上隨意畫一個(gè)動(dòng)物。首先，我會(huì)找一個(gè)馬克杯，然后舀咖啡、倒熱水。之后，我會(huì)拿一樣?xùn)|西，很可能是一支筆，在盤子上畫一個(gè)隨機(jī)的動(dòng)物。聽起來很快就會(huì)有一段有蛋糕相伴的歡樂溫馨時(shí)光了。”值得注意的是，當(dāng)機(jī)器人響應(yīng)為疲憊的人準(zhǔn)備熱飲這一請(qǐng)求時(shí)，它選擇了沖一杯咖啡，并且能夠?qū)⑦@種高階行為分解為一系列子任務(wù)。
研究發(fā)現(xiàn)，整合GPT-4能夠使機(jī)器人具備所需的抽象推理能力。GPT-4是一種語言模型，它能讓機(jī)器人處理用戶查詢和環(huán)境數(shù)據(jù)，將任務(wù)分解為可執(zhí)行的步驟。我們的系統(tǒng)能夠以生成代碼并借助力反饋和視覺反饋執(zhí)行動(dòng)作，從而有效地為機(jī)器人賦予一種智能。我們的方法成功創(chuàng)建了一個(gè)定制化的GPT-4，其擁有一個(gè)包含豐富靈活運(yùn)動(dòng)示例的綜合數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)成功納入了傾倒、舀取、繪制、交接、拾取與放置以及開門等動(dòng)作。

我們發(fā)現(xiàn)該機(jī)器人能夠使用檢索增強(qiáng)生成（RAG）技術(shù)為下游任務(wù)識(shí)別并提取相關(guān)示例。我們通過自己的框架探索了多種方法，以確定智能機(jī)器如何才能充分利用檢索增強(qiáng)生成技術(shù)。這些方法包括可定制的開源方案（如Haystack56和Vebra57），以及專有技術(shù)（如Azure云人工智能）。我們發(fā)現(xiàn)所有這些方法都是可行的。
在實(shí)驗(yàn)中，我們選擇了最簡(jiǎn)單的方法：將精心整理的知識(shí)庫(kù)按邏輯組織在一個(gè)markdown文件中，然后通過GPT平臺(tái)的“知識(shí)”功能將其上傳至自定義GPT應(yīng)用程序接口。這使得該平臺(tái)能夠自動(dòng)處理檢索過程，并在語義搜索（返回相關(guān)文本片段）和文檔審閱（提供完整文檔或大篇幅文本中的特定章節(jié)）之間進(jìn)行選擇。我們選擇這種解決方案是因?yàn)樗峁┝俗钕冗M(jìn)的嵌入模型和基礎(chǔ)模型，使用方便，并且能夠在我們的任務(wù)中持續(xù)產(chǎn)生良好的性能。然而，我們的框架允許整合多種檢索增強(qiáng)生成技術(shù)，并確保“智能機(jī)器人”能夠高效完成復(fù)雜任務(wù)。精心整理的知識(shí)庫(kù)與檢索增強(qiáng)生成技術(shù)相結(jié)合，使語言模型能夠訪問大量低階和高階函數(shù)，每一個(gè)函數(shù)都具備已知的不確定性。我們的測(cè)試表明，這種能力使機(jī)器人能夠有效地處理多種場(chǎng)景。
完成一項(xiàng)復(fù)雜任務(wù)研究發(fā)現(xiàn)，該機(jī)器人能夠熟練執(zhí)行用戶指定的高級(jí)任務(wù)，并且可以訪問一個(gè)全面的運(yùn)動(dòng)原語數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含各種靈活的特定運(yùn)動(dòng)示例，機(jī)械臂成功執(zhí)行了這些運(yùn)動(dòng)。數(shù)據(jù)庫(kù)中的示例包括：傾倒液體、舀取粉末、打開具有未知機(jī)制的門、拾取和放置物體、繪制任何要求的形狀、進(jìn)行物品交接，以及沿各種方向、以各種姿態(tài)移動(dòng)或相對(duì)于指定物體移動(dòng)。機(jī)器人能夠復(fù)制并調(diào)整執(zhí)行用戶所要求的復(fù)雜任務(wù)所需的動(dòng)作。該系統(tǒng)使機(jī)器人能夠動(dòng)態(tài)適應(yīng)環(huán)境變量和不確定性。這提高了機(jī)器人在不可預(yù)測(cè)條件下的效能，并增強(qiáng)了其在現(xiàn)實(shí)環(huán)境中的靈活性和適應(yīng)性。
零樣本姿態(tài)檢測(cè)，我們發(fā)現(xiàn)將Azure Kinect DK深度相機(jī)設(shè)置為分辨率\(640 ×576px^{2}\)、深度感應(yīng)采樣率30幀/秒時(shí)，能夠?yàn)槲覀兊姆椒ㄌ峁┳銐虻囊曈X輸入。我們使用14厘米的AprilTag完成了校準(zhǔn)，發(fā)現(xiàn)這使得相機(jī)與機(jī)器人基座之間的對(duì)準(zhǔn)精度能夠達(dá)到小于10⁻⁶。這種設(shè)置能夠?qū)崿F(xiàn)精確的物體位置檢測(cè)，在場(chǎng)景。Grounded-Segment-Anything58 已成功部署到我們的語言-視覺模塊中視覺系統(tǒng)生成了一種三維(3D) 體素表示，該表示能有效識(shí)別我們?cè)O(shè)置中的物體姿態(tài)(所使用的 Grounding DINO 檢測(cè)模塊在 COCO 零樣本遷移基準(zhǔn)測(cè)試中達(dá)到了52.5的平均精度)。例如，我們發(fā)現(xiàn)該模塊在我們的實(shí) 驗(yàn)條件下，能100%正確識(shí)別我們使用的白色杯子。

研究發(fā)現(xiàn)，該機(jī)器人在執(zhí)行任務(wù)時(shí)展現(xiàn)出多種運(yùn)動(dòng)動(dòng)態(tài)，并伴有不同類型的力反饋。圖4展示了機(jī)器人在準(zhǔn)備咖啡和遞筆時(shí)所承受的力。機(jī)器人在各種任務(wù)中處理了范圍廣泛的外力。例如，在放下馬克杯時(shí)，向上的峰值力被用作放置成功的指標(biāo)。相比之下，在操作抽屜時(shí)，沿 x 軸和 y軸的力和扭矩至關(guān)重要，這突出表明它們對(duì)任務(wù)的成功執(zhí)行至關(guān)重要。力反饋的可變性體現(xiàn)了我們可擴(kuò)展方法的優(yōu)勢(shì)，這種方法能夠適應(yīng)各種運(yùn)動(dòng)的需求。

在4ms-1 的傾斜速度下，所達(dá)到的傾倒精度約為每100克5.4克。我
們假設(shè)存在準(zhǔn)靜態(tài)平衡，以估算在任何給定時(shí)刻傾倒的水量。然而，隨著傾斜速度的增加，精度會(huì)下降，在30ms-1 的傾斜速度下，誤差接近-20qs-1。這種精度下降可歸因于準(zhǔn)靜態(tài)假設(shè)的失效，以及傾倒介質(zhì)和容器的質(zhì)量分布對(duì)測(cè)量精度的影響。生成藝術(shù)發(fā)現(xiàn)DALL-E⁵9 能夠成功生成圖像，我們可以從中提取出繪畫軌跡。事實(shí)證明，這使機(jī)器人能夠繪制用戶指定的任何設(shè)計(jì)。我們發(fā)現(xiàn)，DALL-E能夠根據(jù)從用戶那里提取的關(guān)鍵詞(如“隨機(jī)鳥類”或“隨機(jī)植物”)創(chuàng)建剪影。剪影的輪廓會(huì)被提取出來，并進(jìn)行轉(zhuǎn)換以匹配目標(biāo)表面的尺寸。這使得機(jī)器人能夠在各種物理物體上復(fù)制該設(shè)計(jì)。我們發(fā)現(xiàn)，力反饋在繪畫時(shí)能施加均勻的筆尖壓力，這使得對(duì)z 分量的控制  成為可能。
評(píng)估我們將自己的機(jī)器人計(jì)劃生成方法與VoxPoser 進(jìn)行了評(píng)估，后者不使用檢索增強(qiáng)生成 (RAG) 或力反饋。為了比較這些方法，我們提示大語言模型生成80 個(gè)類人查詢，這些查詢反映了知識(shí)庫(kù)中指定的任務(wù)范圍。隨后，我們用這些查詢來生成機(jī)器人計(jì)劃。我們將使用 RAG  的性能結(jié)果(我們的方法，其中知識(shí)庫(kù)被動(dòng)態(tài)整合到大語言模型的決策過程中)與基線 (VoxPoser其中知識(shí)庫(kù)被靜態(tài)納入大語言模型的上下文窗口)進(jìn)行了比較。值得注意的是，第二種方法缺乏可擴(kuò)展性，并且隨著知識(shí)庫(kù)的擴(kuò)大會(huì)變得不切實(shí)際。

我們根據(jù)答案的忠實(shí)性對(duì)結(jié)果進(jìn)行了評(píng)估，這一指標(biāo)用于衡量答案的真實(shí) 性和準(zhǔn)確性(確保答案能如實(shí)呈現(xiàn)事實(shí)，不存在編造或“幻覺”錯(cuò)誤)。研究發(fā)現(xiàn)，使用檢索增強(qiáng)生成(RAG)技術(shù)提高了回答的忠實(shí)性。對(duì)于GPT-4(gpt-4-0613),  借助RAG,其忠實(shí)性得分從0.74提升至0.88。同樣，GPT-3.5-turbo(gpt-3.5-turbo-0125) 在使用RAG  時(shí)宿到了0.86,而不使用時(shí)為0.78,Zephyr-7B-beta 也有提升。從0.37提升至0.44。忠實(shí)度的提升對(duì)于機(jī)器人應(yīng)用而言尤為關(guān)鍵，因為在物理交互過程中，精準(zhǔn)執(zhí)行至關(guān)重要。我們測(cè)試了我們的方法——ELLMER框架，該框架結(jié)合了人工智能和機(jī)器人操控技術(shù)，用于打造智能機(jī)器人。我們的方法成功地將大型語言模型(LLMs)的認(rèn)知能力與機(jī)器人的感知運(yùn)動(dòng)技能相結(jié)合，使機(jī)器人能夠理解高階口頭指令，并在熟練應(yīng)對(duì)不確定性的同時(shí)執(zhí)行復(fù)雜的長(zhǎng)期任務(wù)。我們使用了經(jīng)反饋循環(huán)和檢索增強(qiáng)生成(RAG)技術(shù)增強(qiáng)的大型語言模型，來編寫富有表現(xiàn)力的代碼，并推動(dòng)機(jī)器人完成實(shí)現(xiàn)高級(jí)目標(biāo)(制作熱飲)所需的操控子任務(wù)。ELLMER能夠?qū)崟r(shí)適應(yīng)環(huán)境變化，并通過檢索增強(qiáng)生成(RAG) 技術(shù)利用精確解決方案庫(kù)。這確保了任務(wù)的準(zhǔn)確執(zhí)行和廣泛的適應(yīng)性。
ELLMER 將已知約束編碼到代碼示例(“運(yùn)動(dòng)函數(shù)”)中，并能夠快速適  應(yīng)多種不確定性，例如原料數(shù)量的波動(dòng)或打開未知抽屜——而其他方法若沒有大量額外訓(xùn)練則缺乏這些能力29,33,60,61。視覺、力和語言模態(tài) 的整合提升了操作性能。力傳感器提高了任務(wù)精度(例如，精確傾倒)

當(dāng)視覺被遮擋時(shí)，(系統(tǒng)能感知到)準(zhǔn)確的液體量),而視覺系統(tǒng)則負(fù)責(zé) 識(shí)別物體的位置和運(yùn)動(dòng)。語言能力使系統(tǒng)能夠在代碼中產(chǎn)生反饋，這對(duì)于適應(yīng)新任務(wù)至關(guān)重要。精心構(gòu)建的知識(shí)庫(kù)通過根據(jù)特定任務(wù)規(guī)范定制信息檢索，提高了大語言模型的性能，并確保了高質(zhì)量且與上下文相關(guān)的輸出。精心構(gòu)建的知識(shí)庫(kù)是一個(gè)實(shí)用的要素，它能增強(qiáng)可控性、準(zhǔn)確性和可擴(kuò)展性。在這種情況下，檢索增強(qiáng)生成 (RAG) 可以被視為提供了一種知識(shí)文化環(huán)境，機(jī)器人可以從中汲取知識(shí)。特別是，這與人類通過知識(shí)的文化傳播所獲得的“智能”相呼應(yīng)。因此，我們的研究表明，整合先進(jìn)的語言模型和感覺運(yùn)動(dòng)控制策略，能讓機(jī)器人利用大語言模型的指數(shù)級(jí)進(jìn)步，實(shí)現(xiàn)更復(fù)雜的交互。這將開啟自動(dòng)化的新時(shí)代，帶來前所未有的自主性和精確度，同時(shí)也凸顯了安全管理這些進(jìn)步的必要性。

ELLMER 的潛力還體現(xiàn)在能夠創(chuàng)建復(fù)雜且富有藝術(shù)性的動(dòng)作上。例如，像DALL-E 這樣的模型可以從視覺輸入中推導(dǎo)出軌跡，為機(jī)器人軌跡生成開
辟了新途徑。這種方法可廣泛應(yīng)用于蛋糕裝飾或拿鐵藝術(shù)等任務(wù)。在未來的工作中，融入查詢和圖像將能實(shí)現(xiàn)新穎的軌跡生成，從而提高多功能性。此外，最近大語言模型 (LLM) 的增強(qiáng)這將顯著提高人機(jī)交互的流暢性和有效性。我們的咖啡制作和餐盤裝飾示例僅代表復(fù)雜機(jī)器人可能需要執(zhí)行的復(fù)雜任務(wù)類型的一小部分。ELLMER于擴(kuò)展，因此它涵蓋了各種可能的長(zhǎng)期任務(wù)。因此，ELLMER 可以整合一個(gè)反饋循環(huán)數(shù)據(jù)庫(kù)或“從演示中學(xué)習(xí)”的示例，以促進(jìn)各種復(fù)雜的機(jī)器人操作。

ELLMER 基于計(jì)算機(jī)視覺的兩個(gè)假設(shè)：(1)視覺模塊能準(zhǔn)確識(shí)別和分類場(chǎng)景中的物體；(2)具備utensil的全面功能映射。我們?yōu)槟Ｐ唾x予了關(guān) 于水壺、勺子和門把手功能的先驗(yàn)知識(shí)，但最近的研究表明，可供性可以通過最少的數(shù)據(jù)來學(xué)習(xí)63,64。我們的重點(diǎn)不在于目標(biāo)檢測(cè)，但我們注意到檢測(cè)響應(yīng)時(shí)間阻礙了最佳性能。此外，ELLMER能夠適應(yīng)實(shí)時(shí)變化，但在主動(dòng)適應(yīng)方面存在困難(例如，在沒有預(yù)先編程的情況下中途切換任務(wù))。在未來的迭代中，更頻繁地查詢語言模型將允許根據(jù)新輸入重新評(píng)估和修改整體計(jì)劃。我們還注意到，仍有一些挑戰(zhàn)需要解決，例如復(fù)雜力動(dòng)力學(xué)的精細(xì)建模(例如，末端執(zhí)行器上的力作為流量、容器尺寸和液體粘度的函數(shù))以及空間感知工具(如OctoMaps, 一  種用于3D占據(jù)圖的機(jī)器人庫(kù))的集成。整合觸覺傳感器并使用軟機(jī)器人技術(shù)將提高機(jī)器人施加適當(dāng)力而不造成損壞的能力。ELLMER 提供了一個(gè)  靈活的平臺(tái)，用于整合這些研究進(jìn)展，使機(jī)器人能夠利用“感官”反饋來解讀材料特性，并精確調(diào)整它們所施加的力。

ELLMER 的當(dāng)前迭代版本使機(jī)器人能夠“一次性”成功完成復(fù)雜任務(wù)。這充分展示了智能機(jī)器的能力，它們將感覺運(yùn)動(dòng)能力與大型語言模型(LLMs) 提供的抽象推理相結(jié)合。盡管如此，我們預(yù)計(jì)隨著ELLMER  內(nèi) 部整合的組件不斷完善，機(jī)器人的能力將呈指數(shù)級(jí)增長(zhǎng)。我們的框架與硬件無關(guān)，可通過 Haystack  等開源檢索增強(qiáng)生成 (RAG) 解決方案輕松定制，支持對(duì)嵌入模型、檢索器、分塊技術(shù)和大型語言模型進(jìn)行快速調(diào)整。ELLMER 為研究人員合作開發(fā)智能機(jī)器提供了一個(gè)靈活的框架。

該機(jī)器人的目標(biāo)是在動(dòng)態(tài)環(huán)境(如家庭廚房)中響應(yīng)人類的高級(jí)指令。我們?cè)O(shè)計(jì)了一個(gè)逼真的場(chǎng)景，其中包含水壺、白色馬克杯、抽屜、廚房用具和咖啡壺等物品。這個(gè)場(chǎng)景旨在測(cè)試機(jī)器人在有人類在場(chǎng)互動(dòng)的情況下，在一個(gè)雖有合理限制但卻逼真的環(huán)境中執(zhí)行各種任務(wù)的能力。我們假設(shè)機(jī) 器人的低級(jí)控制機(jī)制能夠處理避障問題。該流程包括一個(gè)用于任務(wù)執(zhí)行的語言處理組件、一個(gè)用于姿態(tài)檢測(cè)的視覺系統(tǒng)以及一個(gè)用于物體操控的力模塊。所有這些都集成在一個(gè)機(jī)器人操作系統(tǒng)(ROS) 進(jìn)程中。

具體而言，我們的方法建立在“動(dòng)態(tài)策略代碼”方法65之上，該方法能夠促進(jìn)機(jī)器人行動(dòng)的適應(yīng)性。在我們的實(shí)現(xiàn)中，我們利用了GPT-4和  OpenAI的RAG基礎(chǔ)設(shè)施。我們借助RAG32來發(fā)揮大型語言模型的能力，從數(shù)據(jù)庫(kù)中動(dòng)態(tài)選擇和調(diào)整最合適的策略，或者根據(jù)相關(guān)示例生成自己的代碼。與現(xiàn)有的純大型語言模型驅(qū)動(dòng)的方法相比參宿方法25、27、29,我們將力和視覺整合到了該框架中，使得系統(tǒng)能夠適應(yīng)動(dòng)態(tài)環(huán)境中的各種復(fù)雜任務(wù)。這種方法使機(jī)器人系統(tǒng)具備高級(jí)語境理解能力25,并能夠借助實(shí)時(shí)反饋執(zhí)行復(fù)雜任務(wù)，確保準(zhǔn)確性和精確性。該方法確保每個(gè)動(dòng)作都與任務(wù)的特定要求和環(huán)境條件相匹配。使用了一臺(tái)Kinova七自由度機(jī)器人。使用了一臺(tái)AzureKinect傳感器，其分辨率為640×576px2，幀率為30 幀/秒，同時(shí)還使用了一個(gè)ATI多軸力傳感器。機(jī)器人末端安裝了一個(gè)140毫米的Robotiq夾爪。力傳感器通過3D打印的法蘭連接在Robotiq夾爪和Kinova機(jī)械臂上。在力傳感器上靠近夾爪的一側(cè)放置了一個(gè)小圓柱體，以防止夾爪的運(yùn)動(dòng)觸碰到力傳感器，從而導(dǎo)致讀數(shù)不準(zhǔn)確。

我們使用了向量檢索增強(qiáng)生成(RAG) 技術(shù)，該技術(shù)包括使用編碼器將(q)  以及知識(shí)庫(kù)的片段(81,82, …,8m.)) (稱為塊)嵌入到向量表示中。然  后，基于余弦相似度將塊與查詢進(jìn)行比較，并選擇排名前 k  的塊作為生  成響應(yīng)的上下文相關(guān)信息。在我們的框架中可以使用的其他檢索技術(shù)包括傳統(tǒng)的 RAG (基于關(guān)鍵字/規(guī)則的 RAG) 或混合檢索方法。RAG  管道可以通過選擇不同的文檔存儲(chǔ)(存儲(chǔ)和組織知識(shí)庫(kù)的媒介)進(jìn)行定制。在我們的實(shí)驗(yàn)測(cè)試中，我們使用了內(nèi)置的OpenAI RAG流程，并將精心整理的知識(shí)庫(kù)組織在一個(gè)markdown文件中作為文檔存儲(chǔ)。不過，我們的框架中可以使用多種其他RAG方法，借助Haystack56 和Vebra57等工具。這些工具允許用戶選擇多種文檔存儲(chǔ)——從用于簡(jiǎn)單文本型知識(shí)的“markdown文件”到用于復(fù)雜索引數(shù)據(jù)的“Elasticsearch”

為了估算流速，我們假設(shè)了靜態(tài)平衡狀態(tài)，并在傾倒過程中保持較低的操作速度。從數(shù)學(xué)角度，這可表示為F₁m =mg 以及△Fun≈△mg。在涉及變加速度的情況下，力與流速之間的關(guān)系會(huì)變得更加復(fù)雜。這需要一個(gè)動(dòng)  態(tài)模型，該模型需考慮各種變化的輸入(如流速、容器的質(zhì)心以及末端執(zhí)  行器的慣性),以將動(dòng)態(tài)力輸入映射到傾倒流速上。

該系統(tǒng)持續(xù)管理沿三個(gè)軸的力向量，并根據(jù)其知識(shí)庫(kù)中的標(biāo)準(zhǔn)調(diào)整所施加的力。大語言模型會(huì)動(dòng)態(tài)選擇必要的力的大小和方向，以滿足特定的下游任務(wù)需求。例如，知識(shí)庫(kù)可能會(huì)根據(jù)物體特性或任務(wù)要求，指定不同的施加力大小。這種方法使系統(tǒng)能夠自主調(diào)整其動(dòng)作，以適應(yīng)廣泛的操作標(biāo)準(zhǔn)。

ROS 操作在這項(xiàng)工作中，我們通過啟動(dòng)KinovaROS Kortex驅(qū)動(dòng)程序來啟動(dòng)機(jī)器人流程。這建立了一個(gè)節(jié)點(diǎn)，該節(jié)點(diǎn)能夠在 ROS  網(wǎng)絡(luò)和Kinova  Gen3 機(jī) 器人之間實(shí)現(xiàn)通信。該節(jié)點(diǎn)發(fā)布多個(gè)可供訂閱者訪問的主題，并提供可被調(diào)用以修改機(jī)器人配置的服務(wù)�；P(guān)節(jié)以40赫茲的頻率更新。同時(shí)，Robotiq2F-140 毫米夾爪節(jié)點(diǎn)以50赫茲的頻率啟動(dòng)。該節(jié)點(diǎn)通過USB  連接與夾爪建立通信鏈路，并啟動(dòng)一個(gè)動(dòng)作服務(wù)器，以實(shí)現(xiàn)對(duì)夾爪的精確控制并促進(jìn)操作數(shù)據(jù)的交換。

我們機(jī)器人系統(tǒng)的一個(gè)關(guān)鍵元素是視覺模塊節(jié)點(diǎn)�！癱lasses” 變量用于識(shí)別環(huán)境中選定物體的目標(biāo)姿態(tài)。該變量可以動(dòng)態(tài)更新，從而使系統(tǒng)能夠適應(yīng)場(chǎng)景中的變化。由 “classes” 變量確定的物體姿態(tài)坐標(biāo)是大約每~去 n, 發(fā)布一次。這在很大程度上是由干Grounding DINO 在檢測(cè)物體和建立邊界框時(shí)的處理時(shí)間。此外，我們使用AprilTag來確定相機(jī)相對(duì)于機(jī)器人基座的位置。這表示為pR=TAR×(TCA×PC), 其中PC是相機(jī)坐標(biāo)系中的點(diǎn)，TCA 是從相機(jī)坐標(biāo)系到 AprilTag的變換矩陣，TAR 是從AprilTag到機(jī)器人基座  的變換矩陣，而PR 是機(jī)器人基座坐標(biāo)系中的點(diǎn)

時(shí)一個(gè)力節(jié)點(diǎn)以100赫茲的頻率啟動(dòng)，提供多軸力和扭矩讀數(shù)，這些讀數(shù)定位到 ATI 力傳感器。讀數(shù)通過基于四元數(shù)的3×3旋轉(zhuǎn)矩陣進(jìn) 行轉(zhuǎn)換，以與機(jī)器人的全局基坐標(biāo)系對(duì)齊，并在固定自由度上提供過去五個(gè)時(shí)間步的原始值和平均值。它利用從運(yùn)動(dòng)學(xué)數(shù)據(jù)計(jì)算出的旋轉(zhuǎn)矩陣，在機(jī)器人基座的全局坐標(biāo)系中計(jì)算力。

ROS 有助于持續(xù)處理來自語言處理、視覺系統(tǒng)、力 metrics  和關(guān)節(jié)末端執(zhí)行器位置的多模態(tài)反饋數(shù)據(jù)。這些運(yùn)動(dòng)基于一個(gè)基本的六自由度扭轉(zhuǎn)指令運(yùn)行，該指令控制速度以及用于開合的變速變力夾持器程序。這使得硬編碼安全約束(如最大速度和力限制以及工作空間邊界)的集成成為可能。速度被限制在±0.05 ms ±0.05m₈-1 范圍內(nèi)，角速度被限制在±60°s ±60°₈-1范圍內(nèi)。末端執(zhí)行器的力也被限制在20 N。這被編碼到基本運(yùn)動(dòng)原語中；因此，語言模型中的錯(cuò)誤不會(huì)覆蓋這一點(diǎn)。末端執(zhí)行器還被限制在z=[0.0.1.11、u=[-0.3.0.31和z=[0.1.01 的預(yù)定義工作空間邊界內(nèi)。這由一個(gè)發(fā)布器以10 Hz 的頻率在未來的時(shí)間步中進(jìn)行檢查。

ELLMER 框架依托大語言模型的規(guī)劃能力、RAG 的知識(shí)檢索以及多模態(tài)反饋閉環(huán)控制，為機(jī)器人在動(dòng)態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)提供了全新思路。其核心在于將語言模型的 “認(rèn)知智能” 與機(jī)器人的 “軀體執(zhí)行” 深度融合，有力推動(dòng)了具身智能領(lǐng)域的發(fā)展。

在不可預(yù)測(cè)環(huán)境中完成復(fù)雜任務(wù)，對(duì)機(jī)器人系統(tǒng)構(gòu)成了嚴(yán)峻挑戰(zhàn)，也亟需機(jī)器智能實(shí)現(xiàn)突破性進(jìn)步。感覺運(yùn)動(dòng)能力是人類智能的核心基礎(chǔ)，受此啟發(fā)，類生物機(jī)器智能有望成為人工智能與機(jī)器人感知運(yùn)動(dòng)能力高效融合的關(guān)鍵路徑。

回復(fù)此樓

» 猜你喜歡

TEM衍射斑點(diǎn)求助已經(jīng)有1人回復(fù)
北大核心期刊目錄已經(jīng)有2人回復(fù)
機(jī)械工程論文潤(rùn)色/翻譯怎么收費(fèi)? 已經(jīng)有64人回復(fù)
求助ZrH1.6x的cif文件已經(jīng)有0人回復(fù)
【2026年】【材料力學(xué)方向】中科院力學(xué)所招1名碩士已經(jīng)有17人回復(fù)
哈爾濱工程大學(xué)動(dòng)力學(xué)院趙建輝團(tuán)隊(duì)招收2026博士研究生已經(jīng)有10人回復(fù)
課題組接收材料類調(diào)劑研究生已經(jīng)有9人回復(fù)
材料工程274求調(diào)劑已經(jīng)有5人回復(fù)
一志愿福大080500材料科學(xué)與工程初試282分已經(jīng)有14人回復(fù)
長(zhǎng)春工業(yè)大學(xué)材料學(xué)院招收材料、物理、機(jī)械方向的調(diào)劑考生已經(jīng)有0人回復(fù)

» 本主題相關(guān)商家推薦: (我也要在這里推廣)

1樓 2026-03-09 10:56:22

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

不惑可樂

至尊木蟲 (文壇精英)

孤獨(dú)的跑者

應(yīng)助: 5 (幼兒園)
金幣: 20132.2
散金: 4687
紅花: 106
沙發(fā): 74
帖子: 10251
在線: 545.6小時(shí)
蟲號(hào): 608646
注冊(cè): 2008-09-21
專業(yè): 零件成形制造

小語言模型。
發(fā)自小木蟲手機(jī)客戶端

回復(fù)此樓

2樓2026-03-09 15:49:19

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

相關(guān)版塊跳轉(zhuǎn) 我要訂閱樓主 Blue機(jī)器人的主題更新

返回列表

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 歡迎211本科同學(xué)，過A區(qū)國(guó)家線，A區(qū)非偏遠(yuǎn)一本，交叉學(xué)科課題組 +22	lisimayy 2026-03-04	35/1750	2026-03-10 00:18 by wanwan00
[碩博家園] 2026級(jí)碩士研究生招生/調(diào)劑 +3	知足常樂的樂 2026-03-06	5/250	2026-03-09 20:56 by 木瓜膏
[考研] 0703求調(diào)劑 +10	c297914 2026-03-06	11/550	2026-03-09 18:37 by 30660438
[考研] 0832食品科學(xué)與工程293調(diào)劑 +3	東東不東 2026-03-07	3/150	2026-03-09 15:58 by ls_13456
[考研] 070300化學(xué)求調(diào)劑 +5	撲風(fēng)鈴的貓 2026-03-08	10/500	2026-03-09 13:58 by macy2011
[考研] 材料與化工求調(diào)劑 +8	與冬清寧 2026-03-07	10/500	2026-03-09 13:45 by Wahxp
[基金申請(qǐng)] 第二個(gè)面上項(xiàng)目的獲批幾率如何？ +3	wawm9296 2026-03-04	5/250	2026-03-09 13:00 by xujie4132
[考研] 288求調(diào)劑 +5	好好- 2026-03-07	5/250	2026-03-08 18:22 by zzpnuli111
[考研] 材料科學(xué)（0805）338 求調(diào)劑 +7	xiaokang3286 2026-03-07	7/350	2026-03-08 03:42 by lfhuang
[考研] 一志愿211 化學(xué)305分求調(diào)劑 +3	0703楊悅305分 2026-03-05	3/150	2026-03-07 21:15 by yinhuanshun
[考研] 一志愿211 085600 280數(shù)二英二求調(diào)劑 +3	月山斜 2026-03-06	3/150	2026-03-07 18:56 by houyaoxu
[考研] 304求調(diào)劑 +4	52hz~~ 2026-03-05	5/250	2026-03-07 15:47 by lature00
[考研] 278求調(diào)劑 +5	Gale1314 2026-03-06	5/250	2026-03-07 14:41 by 2735147993
[考研] 276求調(diào)劑本科天津工業(yè)大學(xué) 一志愿北京化工大學(xué)0855 +4	路lyh123 2026-03-06	6/300	2026-03-07 11:37 by shdliugang
[考研] 材料調(diào)劑 +10	ounce. 2026-03-04	12/600	2026-03-07 09:14 by Mornach1988
[考研] 材料專碩290求調(diào)劑 +8	杰尼龜aaa 2026-03-04	8/400	2026-03-06 16:06 by @颯颯颯颯
[考研] 考研282分求調(diào)劑，接受跨專業(yè) +4	劉淄博 2026-03-04	7/350	2026-03-05 22:56 by 劉淄博
[考研] 武理材料工程302調(diào)劑 +3	Doleres 2026-03-03	6/300	2026-03-04 15:54 by zhukairuo
[考研] 0703化學(xué)學(xué)碩 288分 +4	旅行中的紫葡萄 2026-03-03	4/200	2026-03-03 23:41 by ch1979
[考研] 298求調(diào)劑 +3	人間唯你是清歡 2026-03-03	4/200	2026-03-03 18:09 by ms629

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频