| 2 | 1/1 | 返回列表 |
| 查看: 40 | 回復(fù): 1 | |||
Blue機(jī)器人新蟲 (初入文壇)
|
[交流]
具身大型語言模型讓機(jī)器人玩轉(zhuǎn)復(fù)雜未知場(chǎng)景 已有1人參與
|
|
BlueRobots上海藍(lán)色蘿卜自動(dòng)化科技有限公司是一家專注于機(jī)器人領(lǐng)域的技術(shù)型企業(yè),致力于為客戶提供高性能硬件和人工智能算法的全套機(jī)器人相關(guān)軟硬件解決方案。公司核心團(tuán)隊(duì)成員來自哈爾濱工業(yè)大學(xué)、上海交通大學(xué)等知名院校,以及ABB、Universal Robots等國(guó)際機(jī)器人公司,擁有十余年的研發(fā)制造經(jīng)驗(yàn)。 BlueRobots在kinova機(jī)器人應(yīng)用領(lǐng)域深耕,提供包括機(jī)器人系統(tǒng)集成、機(jī)器視覺、靈巧手、六維力傳感器等在內(nèi)的成套解決方案。公司通過先進(jìn)的控制技術(shù)和核心技術(shù)驅(qū)動(dòng),專注于協(xié)作機(jī)器人的應(yīng)用開發(fā)與市場(chǎng)推廣,幫助客戶實(shí)現(xiàn)工業(yè)自動(dòng)化和智能化轉(zhuǎn)型。 通過BlueRobots平臺(tái),您可以輕松購(gòu)買各種機(jī)器人相關(guān)產(chǎn)品,省心省事省力。我們專注于為用戶提供專業(yè)、便捷且經(jīng)濟(jì)實(shí)惠的機(jī)器人系統(tǒng)及定制服務(wù),幫助您實(shí)現(xiàn)更多可能。 英國(guó)愛丁堡大學(xué)最新研究登上《Nature Machine Intelligence》,提出ELLMER 具身大型語言模型機(jī)器人框架。依托 GPT-4 理解與規(guī)劃、RAG 知識(shí)增強(qiáng)、視覺 + 力反饋閉環(huán),機(jī)器人得以在動(dòng)態(tài)環(huán)境中自主完成復(fù)雜長(zhǎng)時(shí)序任務(wù),為具身智能落地提供新范。 在不可預(yù)測(cè)環(huán)境中執(zhí)行復(fù)雜任務(wù),對(duì)機(jī)器人系統(tǒng)提出了巨大挑戰(zhàn),也迫切需要機(jī)器智能實(shí)現(xiàn)突破性發(fā)展。感覺運(yùn)動(dòng)能力是人類智能的關(guān)鍵組成部分,因此,受生物啟發(fā)的機(jī)器智能有望成為人工智能與機(jī)器人感覺運(yùn)動(dòng)能力高效融合的重要路徑。 參考文獻(xiàn):https://www.nature.com/articles/s42256-025-01005-x 本文提出具身大型語言模型賦能機(jī)器人(ELLMER)框架,該框架依托 GPT‑4 與檢索增強(qiáng)生成(RAG)技術(shù),使機(jī)器人可在動(dòng)態(tài)不確定環(huán)境中自主完成長(zhǎng)周期復(fù)雜任務(wù)。該方法從知識(shí)庫(kù)中抽取與任務(wù)上下文相關(guān)的范例,生成融合力反饋與視覺反饋的執(zhí)行方案,并具備動(dòng)態(tài)環(huán)境自適應(yīng)能力。研究團(tuán)隊(duì)在咖啡制作、餐盤裝飾等典型任務(wù)中對(duì) ELLMER 進(jìn)行驗(yàn)證,任務(wù)涵蓋開啟抽屜、傾倒液體等一系列連續(xù)子操作,不同子任務(wù)可分別受益于多模態(tài)感知與多樣化決策機(jī)制。實(shí)驗(yàn)結(jié)果表明,ELLMER 框架可穩(wěn)定支撐機(jī)器人完成上述復(fù)雜任務(wù)。該工作展現(xiàn)了一種可擴(kuò)展、高效率的智能機(jī)器人實(shí)現(xiàn)路徑,為機(jī)器人在不確定環(huán)境中自主完成復(fù)雜任務(wù)提供了重要進(jìn)展。 人類智能在感覺運(yùn)動(dòng)過程中具有其本體論和種系發(fā)生學(xué)基礎(chǔ),具身認(rèn)知對(duì)“機(jī)器智能”具有理論意義,因?yàn)樗砻,如果“認(rèn)知”過程不存在,機(jī)器將無法展現(xiàn)出某些方面的智能。 嵌入在機(jī)器人設(shè)備中。這是一個(gè)仍有待驗(yàn)證的推測(cè),但“智能機(jī)器人”為探索有關(guān)人類智能的各種假設(shè)以及推動(dòng)機(jī)器智能領(lǐng)域的發(fā)展提供了一種有效的方式。更實(shí)際地說,有效的人機(jī)協(xié)作最終將要求機(jī)器人至少具備接近“類人”的能力。因此,對(duì)未來“智能機(jī)器”的一個(gè)合理預(yù)期是,它們有潛力在與環(huán)境中的物體和人類進(jìn)行熟練互動(dòng)時(shí),執(zhí)行抽象的認(rèn)知計(jì)算。 到目前為止,多方面的研究工作已經(jīng)取得了進(jìn)展:(1)機(jī)器人的感知運(yùn)動(dòng)能力,以及(2)人工智能。我們著手檢驗(yàn)這樣一個(gè)假設(shè),即現(xiàn)在可以將這些方法結(jié)合起來,使機(jī)器人展現(xiàn)類人智能的能力實(shí)現(xiàn)跨越式提升。我們進(jìn)一步假設(shè),整合(1)和(2)將使機(jī)器人能夠承擔(dān)在實(shí)際中有用的復(fù)雜任務(wù),這些任務(wù)在廣泛的場(chǎng)景,但目前超出了機(jī)器人系統(tǒng)的能力范圍。試想這樣一種情景:有人回到家,感到疲憊又口渴。廚房里有一個(gè)配備了先進(jìn)操控系統(tǒng)的機(jī)器人,它接到了準(zhǔn)備飲品的指令。這個(gè)機(jī)器人決定要沖一杯提神的咖啡,然后遞給它的人類同伴。這項(xiàng)對(duì)人類而言十分簡(jiǎn)單的任務(wù),卻包含了一系列挑戰(zhàn),這些挑戰(zhàn)…… 對(duì)接收的信息進(jìn)行解讀,并分析周圍環(huán)境。接下來,它可能需要在環(huán)境中搜尋以找到一個(gè)杯子。這可能包括打開具有未知開啟機(jī)制的抽屜。然后,機(jī)器人必須測(cè)量并混合精確比例的水和咖啡。這需要精細(xì)的力控制,以及在出現(xiàn)……時(shí)對(duì)不確定性的適應(yīng)能力。這種場(chǎng)景是動(dòng)態(tài)環(huán)境中復(fù)雜任務(wù)多面性的典型例子。傳統(tǒng)上,機(jī)器人系統(tǒng)在這些任務(wù)中表現(xiàn)不佳,因?yàn)樗鼈儫o法遵循高級(jí)指令,只能依賴預(yù)編程的響應(yīng)。 強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)已經(jīng)證明了交互和演示在教導(dǎo)機(jī)器人執(zhí)行復(fù)雜任務(wù)方面的有效性。這些方法很有前景15,但在適應(yīng)新任務(wù)和應(yīng)對(duì)多樣化場(chǎng)景時(shí)往往存在困難。當(dāng)機(jī)器人需要……時(shí),模仿學(xué)習(xí)也面臨著挑戰(zhàn)。 為這些挑戰(zhàn)提供了一個(gè)潛在的解決方案。人類操作的復(fù)雜性在一定程度上源于認(rèn)知過程的類型,由于其先進(jìn)的語境理解能力,大型語言模型(LLMs)提供了一種處理復(fù)雜指令并相應(yīng)調(diào)整行動(dòng)的方法,并且大量近期研究將大型語言模型用于短視域任務(wù)。日常操作任務(wù)。同樣,機(jī)器人Transformer(RT-2)利用大規(guī)模網(wǎng)絡(luò)和機(jī)器人學(xué)習(xí)數(shù)據(jù),使機(jī)器人能夠以顯著的適應(yīng)性執(zhí)行訓(xùn)練場(chǎng)景之外的任務(wù)。分層擴(kuò)散策略引入了一種模型結(jié)構(gòu)來生成具有上下文感知的運(yùn)動(dòng)軌跡,這能從高級(jí)LLM決策輸入中增強(qiáng)特定任務(wù)的運(yùn)動(dòng)。然而,在將LLM有效集成到機(jī)器人操作中仍存在挑戰(zhàn)。這些挑戰(zhàn)包括復(fù)雜的提示要求、缺乏實(shí)時(shí)交互反饋、缺乏利用力反饋的LLM驅(qū)動(dòng)工作以及阻礙的低效流程。盡管檢索增強(qiáng)生成(RAG)有潛力通過相關(guān)且準(zhǔn)確的示例持續(xù)更新和完善機(jī)器人知識(shí)(并在不影響性能的情況下擴(kuò)充知識(shí)庫(kù)),但人們卻忽視了其在機(jī)器人技術(shù)中的應(yīng)用。 該示意圖展示了系統(tǒng)框架,包括高層(藍(lán)色水平虛線以上)和低層(藍(lán)色水平虛線以下)系統(tǒng)架構(gòu)。用戶查詢通過語音識(shí)別軟件輸入到轉(zhuǎn)換器中。轉(zhuǎn)換器(GPT-4)接收該輸入,并將其與(i)環(huán)境圖像(C)(通過Azure Kinect深度相機(jī)獲。唬╥i)代碼示例知識(shí)庫(kù)(包括存儲(chǔ)在數(shù)據(jù)庫(kù)中的各種函數(shù))相結(jié)合。轉(zhuǎn)換器可以將高階抽象任務(wù)分解為可執(zhí)行的高層子任務(wù),從知識(shí)庫(kù)中檢索相關(guān)代碼示例,對(duì)其進(jìn)行調(diào)整,并編寫適合這些任務(wù)的Python(3.8版本)代碼。生成的代碼隨后被發(fā)送到機(jī)器人控制器(A)。控制器處理該代碼,并向機(jī)器人發(fā)送控制信號(hào)(λ)。動(dòng)作(a)通過力(F)和視覺(V)反饋進(jìn)行控制。該模型利用視覺識(shí)別不同物體的屬性(例如,咖啡杯的位姿X),從而能夠準(zhǔn)確抓取物體。機(jī)器人利用\((f)\)和扭矩(τ)反饋(通過ATI力傳感器獲取)來熟練操作物體(例如,確定要倒多少水)。由于視覺信號(hào)(\((\eta_{vision })\)、機(jī)器人關(guān)節(jié)角度(\((\eta_{ a n s e k })\))和力傳感器信號(hào)(\(( \eta_{force })\))中存在噪聲,反饋是必要的。反饋通過線速度(\((v_{x y z})\))和角速度(\((v_{s p y})\))的速度指令更新ROS中的運(yùn)動(dòng),以實(shí)現(xiàn)預(yù)期目標(biāo)。這些指令基于適當(dāng)?shù)牧蜁r(shí)空模式生成軌跡,以實(shí)現(xiàn)子目標(biāo)。反饋回路的使用(包括40Hz的末端執(zhí)行器\((p)\)和姿態(tài)(\((q)\))更新)使機(jī)器人能夠?qū)Ω蓴_做出響應(yīng)(例如,機(jī)器人跟蹤杯子,以確定杯子被用戶移動(dòng)后的新位置)。 為人類沖一杯咖啡,我們使用一個(gè)七自由度的Kinova機(jī)械臂來驗(yàn)證這一假設(shè),該機(jī)械臂在不確定的環(huán)境中執(zhí)行這項(xiàng)復(fù)雜且需要較大力量的任務(wù),并利用了集成的力反饋和視覺反饋。結(jié)果抽象推理的語言整合我們發(fā)現(xiàn),我們的方法能讓機(jī)器人對(duì)一個(gè)抽象的高階語言指令做出響應(yīng)(“我累了,朋友們很快要來吃蛋糕。你能給我做一杯熱飲,再在盤子上隨意畫一個(gè)動(dòng)物裝飾一下嗎”),并完成制作熱飲和在盤子上畫圖案這一預(yù)期任務(wù)。展示這一互動(dòng)過程的視頻詳見補(bǔ)充視頻1。機(jī)器人對(duì)該指令做出了如下語音回應(yīng):“我正在準(zhǔn)備制作熱飲,同時(shí)也準(zhǔn)備在盤子上隨意畫一個(gè)動(dòng)物。首先,我會(huì)找一個(gè)馬克杯,然后舀咖啡、倒熱水。之后,我會(huì)拿一樣?xùn)|西,很可能是一支筆,在盤子上畫一個(gè)隨機(jī)的動(dòng)物。聽起來很快就會(huì)有一段有蛋糕相伴的歡樂溫馨時(shí)光了。”值得注意的是,當(dāng)機(jī)器人響應(yīng)為疲憊的人準(zhǔn)備熱飲這一請(qǐng)求時(shí),它選擇了沖一杯咖啡,并且能夠?qū)⑦@種高階行為分解為一系列子任務(wù)。 研究發(fā)現(xiàn),整合GPT-4能夠使機(jī)器人具備所需的抽象推理能力。GPT-4是一種語言模型,它能讓機(jī)器人處理用戶查詢和環(huán)境數(shù)據(jù),將任務(wù)分解為可執(zhí)行的步驟。我們的系統(tǒng)能夠以生成代碼并借助力反饋和視覺反饋執(zhí)行動(dòng)作,從而有效地為機(jī)器人賦予一種智能。我們的方法成功創(chuàng)建了一個(gè)定制化的GPT-4,其擁有一個(gè)包含豐富靈活運(yùn)動(dòng)示例的綜合數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)成功納入了傾倒、舀取、繪制、交接、拾取與放置以及開門等動(dòng)作。 我們發(fā)現(xiàn)該機(jī)器人能夠使用檢索增強(qiáng)生成(RAG)技術(shù)為下游任務(wù)識(shí)別并提取相關(guān)示例。我們通過自己的框架探索了多種方法,以確定智能機(jī)器如何才能充分利用檢索增強(qiáng)生成技術(shù)。這些方法包括可定制的開源方案(如Haystack56和Vebra57),以及專有技術(shù)(如Azure云人工智能)。我們發(fā)現(xiàn)所有這些方法都是可行的。 在實(shí)驗(yàn)中,我們選擇了最簡(jiǎn)單的方法:將精心整理的知識(shí)庫(kù)按邏輯組織在一個(gè)markdown文件中,然后通過GPT平臺(tái)的“知識(shí)”功能將其上傳至自定義GPT應(yīng)用程序接口。這使得該平臺(tái)能夠自動(dòng)處理檢索過程,并在語義搜索(返回相關(guān)文本片段)和文檔審閱(提供完整文檔或大篇幅文本中的特定章節(jié))之間進(jìn)行選擇。我們選擇這種解決方案是因?yàn)樗峁┝俗钕冗M(jìn)的嵌入模型和基礎(chǔ)模型,使用方便,并且能夠在我們的任務(wù)中持續(xù)產(chǎn)生良好的性能。然而,我們的框架允許整合多種檢索增強(qiáng)生成技術(shù),并確保“智能機(jī)器人”能夠高效完成復(fù)雜任務(wù)。精心整理的知識(shí)庫(kù)與檢索增強(qiáng)生成技術(shù)相結(jié)合,使語言模型能夠訪問大量低階和高階函數(shù),每一個(gè)函數(shù)都具備已知的不確定性。我們的測(cè)試表明,這種能力使機(jī)器人能夠有效地處理多種場(chǎng)景。 完成一項(xiàng)復(fù)雜任務(wù)研究發(fā)現(xiàn),該機(jī)器人能夠熟練執(zhí)行用戶指定的高級(jí)任務(wù),并且可以訪問一個(gè)全面的運(yùn)動(dòng)原語數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含各種靈活的特定運(yùn)動(dòng)示例,機(jī)械臂成功執(zhí)行了這些運(yùn)動(dòng)。數(shù)據(jù)庫(kù)中的示例包括:傾倒液體、舀取粉末、打開具有未知機(jī)制的門、拾取和放置物體、繪制任何要求的形狀、進(jìn)行物品交接,以及沿各種方向、以各種姿態(tài)移動(dòng)或相對(duì)于指定物體移動(dòng)。機(jī)器人能夠復(fù)制并調(diào)整執(zhí)行用戶所要求的復(fù)雜任務(wù)所需的動(dòng)作。該系統(tǒng)使機(jī)器人能夠動(dòng)態(tài)適應(yīng)環(huán)境變量和不確定性。這提高了機(jī)器人在不可預(yù)測(cè)條件下的效能,并增強(qiáng)了其在現(xiàn)實(shí)環(huán)境中的靈活性和適應(yīng)性。 零樣本姿態(tài)檢測(cè),我們發(fā)現(xiàn)將Azure Kinect DK深度相機(jī)設(shè)置為分辨率\(640 ×576px^{2}\)、深度感應(yīng)采樣率30幀/秒時(shí),能夠?yàn)槲覀兊姆椒ㄌ峁┳銐虻囊曈X輸入。我們使用14厘米的AprilTag完成了校準(zhǔn),發(fā)現(xiàn)這使得相機(jī)與機(jī)器人基座之間的對(duì)準(zhǔn)精度能夠達(dá)到小于10⁻⁶。這種設(shè)置能夠?qū)崿F(xiàn)精確的物體位置檢測(cè),在場(chǎng)景。Grounded-Segment-Anything58 已成功部署到我們的語言-視覺 模塊中視覺系統(tǒng)生成了一種三維(3D) 體素表示,該表示能有效識(shí)別我們?cè)O(shè)置中 的物體姿態(tài)(所使用的 Grounding DINO 檢測(cè)模塊在 COCO 零樣本遷移基 準(zhǔn)測(cè)試中達(dá)到了52.5的平均精度)。例如,我們發(fā)現(xiàn)該模塊在我們的實(shí) 驗(yàn)條件下,能100%正確識(shí)別我們使用的白色杯子。 研究發(fā)現(xiàn),該機(jī)器人在執(zhí)行任務(wù)時(shí)展現(xiàn)出多種運(yùn)動(dòng)動(dòng)態(tài),并伴有不同類型 的力反饋。圖4展示了機(jī)器人在準(zhǔn)備咖啡和遞筆時(shí)所承受的力。機(jī)器人在各種任務(wù)中處理了范圍廣泛的外力。例如,在放下馬克杯時(shí),向上的峰值力被用作放置成功的指標(biāo)。相比之下,在操作抽屜時(shí),沿 x 軸和 y軸的力和扭矩至關(guān)重要,這突出表明它們對(duì)任務(wù)的成功執(zhí)行至關(guān)重要。力反饋的可變性體現(xiàn)了我們可擴(kuò)展方法 的優(yōu)勢(shì),這種方法能夠適應(yīng)各種運(yùn)動(dòng)的需求。 在4ms-1 的傾斜速度下,所達(dá)到的傾倒精度約為每100克5.4克。我 們假設(shè)存在準(zhǔn)靜態(tài)平衡,以估算在任何給定時(shí)刻傾倒的水量。然而,隨著 傾斜速度的增加,精度會(huì)下降,在30ms-1 的傾斜速度下,誤差接近-20qs-1。 這種精度下降可歸因于準(zhǔn)靜態(tài)假設(shè)的失效,以及傾倒介質(zhì)和 容器的質(zhì)量分布對(duì)測(cè)量精度的影響。生成藝術(shù)發(fā)現(xiàn)DALL-E⁵9 能夠成功生成圖像,我們可以從中提取出繪畫軌跡。事實(shí)證明,這使機(jī)器人能夠繪制用戶指定的任何設(shè)計(jì)。我們發(fā)現(xiàn),DALL-E能夠根據(jù)從用戶那里提取的關(guān)鍵詞(如“隨機(jī)鳥類”或“隨機(jī)植物”)創(chuàng)建剪影。剪影的輪廓會(huì)被提取出來,并進(jìn)行轉(zhuǎn)換以匹配目標(biāo)表面 的尺寸。這使得機(jī)器人能夠在各種物理物體上復(fù)制該設(shè)計(jì)。我們 發(fā)現(xiàn),力反饋在繪畫時(shí)能施加均勻的筆尖壓力,這使得對(duì)z 分量的控制 成為可能。 評(píng)估我們將自己的機(jī)器人計(jì)劃生成方法與VoxPoser 進(jìn)行了評(píng)估,后者不使用檢索增強(qiáng)生成 (RAG) 或力反饋。為了比較這些方法,我們提示大語言模 型生成80 個(gè)類人查詢,這些查詢反映了知識(shí)庫(kù)中指定的任務(wù)范圍。隨后,我們用這些查詢來生成機(jī)器人計(jì)劃。我們將使用 RAG 的性能結(jié)果(我們的方法,其中知識(shí)庫(kù)被動(dòng)態(tài)整合到大語言模型的決策過程中)與基線 (VoxPoser其中知識(shí)庫(kù)被靜態(tài)納入大語言模型的上下文窗口)進(jìn)行了比較。值得注意的是,第二種方法缺乏可擴(kuò)展性,并且隨著知識(shí)庫(kù)的擴(kuò)大會(huì)變得不切實(shí)際 。 我們根據(jù)答案的忠實(shí)性對(duì)結(jié)果進(jìn)行了評(píng)估,這一指標(biāo)用于衡量答案的真實(shí) 性和準(zhǔn)確性(確保答案能如實(shí)呈現(xiàn)事實(shí),不存在編造或“幻覺”錯(cuò)誤)。研究發(fā)現(xiàn),使用檢索增強(qiáng)生成(RAG)技術(shù)提高了回答的忠實(shí)性。對(duì)于GPT-4(gpt-4-0613), 借助RAG,其忠實(shí)性得分從0.74提升至0.88。同樣,GPT-3.5-turbo(gpt-3.5-turbo-0125) 在使用RAG 時(shí)宿到了0.86,而不使用時(shí)為0.78,Zephyr-7B-beta 也有提升。從0.37提升至0.44。忠實(shí)度的提升對(duì)于機(jī)器人應(yīng)用而言尤為關(guān)鍵,因 為在物理交互過程中,精準(zhǔn)執(zhí)行至關(guān)重要。我們測(cè)試了我們的方法——ELLMER框架,該框架結(jié)合了人工智能和機(jī)器 人操控技術(shù),用于打造智能機(jī)器人。我們的方法成功地將大型語言模型(LLMs)的認(rèn)知能力與機(jī)器人的感知運(yùn)動(dòng)技能相結(jié)合,使機(jī)器人能夠理解高階口頭指令,并在熟練應(yīng)對(duì)不確定性的同時(shí)執(zhí)行復(fù)雜的長(zhǎng)期任務(wù)。我們使用了經(jīng)反饋循環(huán)和檢索增強(qiáng)生成(RAG)技術(shù)增強(qiáng)的大型語言模型,來編寫富有表現(xiàn)力的代碼,并推動(dòng)機(jī)器人完成實(shí)現(xiàn)高級(jí)目標(biāo)(制作熱飲)所需的操控子任務(wù)。ELLMER能夠?qū)崟r(shí)適應(yīng)環(huán)境變化,并通過檢索增強(qiáng)生成(RAG) 技術(shù)利用精確解決方案庫(kù)。這確保了任務(wù)的準(zhǔn)確執(zhí)行和廣泛的適應(yīng)性。 ELLMER 將已知約束編碼到代碼示例(“運(yùn)動(dòng)函數(shù)”)中,并能夠快速適 應(yīng)多種不確定性,例如原料數(shù)量的波動(dòng)或打開未知抽屜——而其他方法 若沒有大量額外訓(xùn)練則缺乏這些能力29,33,60,61。視覺、力和語言模態(tài) 的整合提升了操作性能。力傳感器提高了任務(wù)精度(例如,精確傾倒) 當(dāng)視覺被遮擋時(shí),(系統(tǒng)能感知到)準(zhǔn)確的液體量),而視覺系統(tǒng)則負(fù)責(zé) 識(shí)別物體的位置和運(yùn)動(dòng)。語言能力使系統(tǒng)能夠在代碼中產(chǎn)生反饋,這對(duì)于 適應(yīng)新任務(wù)至關(guān)重要。精心構(gòu)建的知識(shí)庫(kù)通過根據(jù)特定任務(wù)規(guī)范定制信息 檢索,提高了大語言模型的性能,并確保了高質(zhì)量且與上下文相關(guān)的輸出。精心構(gòu)建的知識(shí)庫(kù)是一個(gè)實(shí)用的要素,它能增強(qiáng)可控性、準(zhǔn)確性和可 擴(kuò)展性。在這種情況下,檢索增強(qiáng)生成 (RAG) 可以被視為提供了一種知識(shí)文化環(huán)境,機(jī)器人可以從中汲取知識(shí)。特別是,這與人類通過知識(shí)的文化傳播所獲得的“智能”相呼應(yīng)。因此,我們的研究表明,整合先進(jìn)的語言模型和感覺運(yùn)動(dòng)控制策略,能讓機(jī)器人利用大語言模型的指數(shù)級(jí)進(jìn)步,實(shí)現(xiàn)更復(fù)雜的交互。這將開啟自動(dòng)化的新時(shí)代,帶來前所未有的自主性和精確度,同時(shí)也凸顯了安全管理這些進(jìn)步的必要性。 ELLMER 的潛力還體現(xiàn)在能夠創(chuàng)建復(fù)雜且富有藝術(shù)性的動(dòng)作上。例如,像DALL-E 這樣的模型可以從視覺輸入中推導(dǎo)出軌跡,為機(jī)器人軌跡生成開 辟了新途徑。這種方法可廣泛應(yīng)用于蛋糕裝飾或拿鐵藝術(shù)等任務(wù)。在未來的工作中,融入查詢和圖像將能實(shí)現(xiàn)新穎的軌跡生成,從而提高多功能性。此外,最近大語言模型 (LLM) 的增強(qiáng)這將顯著提高人機(jī)交互的流暢性和有效性。我們的咖啡制作和餐盤裝飾示 例僅代表復(fù)雜機(jī)器人可能需要執(zhí)行的復(fù)雜任務(wù)類型的一小部分。ELLMER于擴(kuò)展,因此它涵蓋了各種可能的長(zhǎng)期任務(wù)。因此,ELLMER 可以整合一個(gè)反饋循環(huán)數(shù)據(jù)庫(kù)或“從演示中學(xué)習(xí)”的示例,以促進(jìn)各種復(fù)雜的機(jī)器人操作。 ELLMER 基于計(jì)算機(jī)視覺的兩個(gè)假設(shè):(1)視覺模塊能準(zhǔn)確識(shí)別和分類場(chǎng)景中的物體;(2)具備utensil的全面功能映射。我們?yōu)槟P唾x予了關(guān) 于水壺、勺子和門把手功能的先驗(yàn)知識(shí),但最近的研究表明,可供性可以通過最少的數(shù)據(jù)來學(xué)習(xí)63,64。我們的重點(diǎn)不在于目標(biāo)檢測(cè),但我們注意到檢測(cè)響應(yīng)時(shí)間阻礙了最佳性能。此外,ELLMER能夠適應(yīng)實(shí)時(shí)變化,但在主動(dòng)適應(yīng)方面存在困難(例如,在沒有預(yù)先編程 的情況下中途切換任務(wù))。在未來的迭代中,更頻繁地查詢語言模型將允 許根據(jù)新輸入重新評(píng)估和修改整體計(jì)劃。我們還注意到,仍有一些挑戰(zhàn)需 要解決,例如復(fù)雜力動(dòng)力學(xué)的精細(xì)建模(例如,末端執(zhí)行器上的力作為流量、容器尺寸和液體粘度的函數(shù))以及空間感知工具(如OctoMaps, 一 種用于3D占據(jù)圖的機(jī)器人庫(kù))的集成。整合觸覺傳感器并使用軟機(jī)器人 技術(shù)將提高機(jī)器人施加適當(dāng)力而不造成損壞的能力。ELLMER 提供了一個(gè) 靈活的平臺(tái),用于整合這些研究進(jìn)展,使機(jī)器人能夠利用“感官”反饋 來解讀材料特性,并精確調(diào)整它們所施加的力。 ELLMER 的當(dāng)前迭代版本使機(jī)器人能夠“一次性”成功完成復(fù)雜任務(wù)。這充分展示了智能機(jī)器的能力,它們將感覺運(yùn)動(dòng)能力與大型語言模型(LLMs) 提供的抽象推理相結(jié)合。盡管如此,我們預(yù)計(jì)隨著ELLMER 內(nèi) 部整合的組件不斷完善,機(jī)器人的能力將呈指數(shù)級(jí)增長(zhǎng)。我們的框架與硬件無關(guān),可通過 Haystack 等開源檢索增強(qiáng)生成 (RAG) 解決方案輕松定制,支持對(duì)嵌入模型、檢索器、分塊技術(shù)和大型語言模型進(jìn)行快速調(diào)整。ELLMER 為研究人員合作開發(fā)智能機(jī)器提供了一個(gè)靈活的框架。 該機(jī)器人的目標(biāo)是在動(dòng)態(tài)環(huán)境(如家庭廚房)中響應(yīng)人類的高級(jí)指令。我 們?cè)O(shè)計(jì)了一個(gè)逼真的場(chǎng)景,其中包含水壺、白色馬克杯、抽屜、廚房用具 和咖啡壺等物品。這個(gè)場(chǎng)景旨在測(cè)試機(jī)器人在有人類在場(chǎng)互動(dòng)的情況下, 在一個(gè)雖有合理限制但卻逼真的環(huán)境中執(zhí)行各種任務(wù)的能力。我們假設(shè)機(jī) 器人的低級(jí)控制機(jī)制能夠處理避障問題。該流程包括一個(gè)用于任務(wù)執(zhí)行的 語言處理組件、一個(gè)用于姿態(tài)檢測(cè)的視覺系統(tǒng)以及一個(gè)用于物體操控的力 模塊。所有這些都集成在一個(gè)機(jī)器人操作系統(tǒng)(ROS) 進(jìn)程中。 具體而言,我們的方法建立在“動(dòng)態(tài)策略代碼”方法65之上,該方法 能夠促進(jìn)機(jī)器人行動(dòng)的適應(yīng)性。在我們的實(shí)現(xiàn)中,我們利用了GPT-4和 OpenAI的RAG基礎(chǔ)設(shè)施。我們借助RAG32來發(fā)揮大型語言模型的能力,從數(shù)據(jù)庫(kù)中動(dòng)態(tài)選擇和調(diào)整最合適的策略,或者根據(jù)相關(guān)示例生成自己的代碼。與現(xiàn)有的純大型語言模型驅(qū)動(dòng)的方法相比參宿方法25、27、29,我們將力和視覺整合到了該框架中,使得系統(tǒng)能夠適應(yīng)動(dòng)態(tài)環(huán)境中的各種復(fù)雜任務(wù)。這種方法使機(jī)器人系統(tǒng)具備高級(jí)語境理解能力25,并能夠借助實(shí)時(shí)反饋執(zhí)行復(fù)雜任務(wù),確保準(zhǔn)確性和精確性。該方法確保每個(gè)動(dòng)作都與任務(wù)的特定要求和環(huán)境條件相匹配。使用了一臺(tái)Kinova七自由度機(jī)器人。使用了一臺(tái)AzureKinect傳感器,其分辨率為640×576px2,幀率為30 幀/秒,同時(shí)還使用了一個(gè)ATI多軸力傳感器。機(jī)器人末端安裝了一個(gè)140毫米的Robotiq夾爪。力傳感器通過3D打印的法蘭連接在Robotiq夾爪和Kinova機(jī)械臂上。在力傳感器上靠近夾爪的一側(cè)放置了一個(gè)小圓柱體,以防止夾爪的運(yùn)動(dòng)觸碰到力傳感器,從而導(dǎo)致讀數(shù)不準(zhǔn)確。 我們使用了向量檢索增強(qiáng)生成(RAG) 技術(shù),該技術(shù)包括使用編碼器將(q) 以及知識(shí)庫(kù)的片段(81,82, …,8m.)) (稱為塊)嵌入到向量表示中。然 后,基于余弦相似度將塊與查詢進(jìn)行比較,并選擇排名前 k 的塊作為生 成響應(yīng)的上下文相關(guān)信息。在我們的框架中可以使用的其他檢索技術(shù)包括 傳統(tǒng)的 RAG (基于關(guān)鍵字/規(guī)則的 RAG) 或混合檢索方法。RAG 管道可以通過選擇不同的文檔存儲(chǔ)(存儲(chǔ)和組織知識(shí)庫(kù)的媒介)進(jìn)行定制。在我們的實(shí)驗(yàn)測(cè)試中,我們使用了內(nèi)置的OpenAI RAG流程,并將 精心整理的知識(shí)庫(kù)組織在一個(gè)markdown文件中作為文檔存儲(chǔ)。不過,我們的框架中可以使用多種其他RAG方法,借助Haystack56 和Vebra57等工具。這些工具允許用戶選擇多種文檔存儲(chǔ)——從用于簡(jiǎn)單文本型知識(shí)的“markdown文件”到用于復(fù)雜索引數(shù)據(jù)的“Elasticsearch” 為了估算流速,我們假設(shè)了靜態(tài)平衡狀態(tài),并在傾倒過程中保持較低的操作速度。從數(shù)學(xué)角度,這可表示為F₁m =mg 以及△Fun≈△mg。在涉及變加速度的情況下,力與流速之間的關(guān)系會(huì)變得更加復(fù)雜。這需要一個(gè)動(dòng) 態(tài)模型,該模型需考慮各種變化的輸入(如流速、容器的質(zhì)心以及末端執(zhí) 行器的慣性),以將動(dòng)態(tài)力輸入映射到傾倒流速上。 該系統(tǒng)持續(xù)管理沿三個(gè)軸的力向量,并根據(jù)其知識(shí)庫(kù)中的標(biāo)準(zhǔn)調(diào)整所施加 的力。大語言模型會(huì)動(dòng)態(tài)選擇必要的力的大小和方向,以滿足特定的下游 任務(wù)需求。例如,知識(shí)庫(kù)可能會(huì)根據(jù)物體特性或任務(wù)要求,指定不同的施 加力大小。這種方法使系統(tǒng)能夠自主調(diào)整其動(dòng)作,以適應(yīng)廣泛的操作標(biāo)準(zhǔn)。 ROS 操作在這項(xiàng)工作中,我們通過啟動(dòng)KinovaROS Kortex驅(qū)動(dòng)程序來啟動(dòng)機(jī)器 人流程。這建立了一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)能夠在 ROS 網(wǎng)絡(luò)和Kinova Gen3 機(jī) 器人之間實(shí)現(xiàn)通信。該節(jié)點(diǎn)發(fā)布多個(gè)可供訂閱者訪問的主題,并提供可被 調(diào)用以修改機(jī)器人配置的服務(wù);P(guān)節(jié)以40赫茲的頻率更新。同時(shí),Robotiq2F-140 毫米夾爪節(jié)點(diǎn)以50赫茲的頻率啟動(dòng)。該節(jié)點(diǎn)通過USB 連接與夾爪建立通信鏈路,并啟動(dòng)一個(gè)動(dòng)作服務(wù)器,以實(shí)現(xiàn)對(duì)夾爪的精確 控制并促進(jìn)操作數(shù)據(jù)的交換。 我們機(jī)器人系統(tǒng)的一個(gè)關(guān)鍵元素是視覺模塊節(jié)點(diǎn)!癱lasses” 變量用于 識(shí)別環(huán)境中選定物體的目標(biāo)姿態(tài)。該變量可以動(dòng)態(tài)更新,從而使系統(tǒng)能夠 適應(yīng)場(chǎng)景中的變化。由 “classes” 變量確定的物體姿態(tài)坐標(biāo)是大約每~去 n, 發(fā)布 一次。這在很大程度上是由干Grounding DINO 在檢測(cè)物體和建立邊界框時(shí)的處理時(shí)間。此外,我們使用AprilTag來確定相機(jī)相對(duì)于機(jī)器人基座的位置。這表示為pR=TAR×(TCA×PC), 其中PC是相機(jī)坐標(biāo)系中的點(diǎn),TCA 是從相 機(jī)坐標(biāo)系到 AprilTag的變換矩陣,TAR 是從AprilTag到機(jī)器人基座 的變換矩陣,而PR 是機(jī)器人基座坐標(biāo)系中的點(diǎn) 時(shí)一個(gè)力節(jié)點(diǎn)以100赫茲的頻率啟動(dòng),提供多軸力和扭矩讀數(shù),這 些讀數(shù)定位到 ATI 力傳感器。讀數(shù)通過基于四元數(shù)的3×3旋轉(zhuǎn)矩陣進(jìn) 行轉(zhuǎn)換,以與機(jī)器人的全局基坐標(biāo)系對(duì)齊,并在固定自由度上提供過去五 個(gè)時(shí)間步的原始值和平均值。它利用從運(yùn)動(dòng)學(xué)數(shù)據(jù)計(jì)算出的旋轉(zhuǎn)矩陣,在 機(jī)器人基座的全局坐標(biāo)系中計(jì)算力。 ROS 有助于持續(xù)處理來自語言處理、視覺系統(tǒng)、力 metrics 和關(guān)節(jié)末端 執(zhí)行器位置的多模態(tài)反饋數(shù)據(jù)。這些運(yùn)動(dòng)基于一個(gè)基本的六自由度扭轉(zhuǎn)指 令運(yùn)行,該指令控制速度以及用于開合的變速變力夾持器程序。這使得硬 編碼安全約束(如最大速度和力限制以及工作空間邊界)的集成成為可能。速度被限制在±0.05 ms ±0.05m₈-1 范圍內(nèi),角速度被限制在±60°s ±60°₈-1范圍內(nèi)。末端執(zhí)行器的力也被限制在20 N。這被編碼 到基本運(yùn)動(dòng)原語中;因此,語言模型中的錯(cuò)誤不會(huì)覆蓋這一點(diǎn)。末端執(zhí)行 器還被限制在z=[0.0.1.11、u=[-0.3.0.31和z=[0.1.01 的預(yù)定義工作空間邊界內(nèi)。這由一個(gè)發(fā)布器以10 Hz 的頻率在未來的時(shí)間步中進(jìn)行檢查。 ELLMER 框架依托大語言模型的規(guī)劃能力、RAG 的知識(shí)檢索以及多模態(tài)反饋閉環(huán)控制,為機(jī)器人在動(dòng)態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)提供了全新思路。其核心在于將語言模型的 “認(rèn)知智能” 與機(jī)器人的 “軀體執(zhí)行” 深度融合,有力推動(dòng)了具身智能領(lǐng)域的發(fā)展。 在不可預(yù)測(cè)環(huán)境中完成復(fù)雜任務(wù),對(duì)機(jī)器人系統(tǒng)構(gòu)成了嚴(yán)峻挑戰(zhàn),也亟需機(jī)器智能實(shí)現(xiàn)突破性進(jìn)步。感覺運(yùn)動(dòng)能力是人類智能的核心基礎(chǔ),受此啟發(fā),類生物機(jī)器智能有望成為人工智能與機(jī)器人感知運(yùn)動(dòng)能力高效融合的關(guān)鍵路徑。 |
至尊木蟲 (文壇精英)
孤獨(dú)的跑者
| 2 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 歡迎211本科同學(xué),過A區(qū)國(guó)家線,A區(qū)非偏遠(yuǎn)一本,交叉學(xué)科課題組 +22 | lisimayy 2026-03-04 | 35/1750 |
|
|---|---|---|---|---|
|
[碩博家園] 2026級(jí)碩士研究生招生/調(diào)劑 +3 | 知足常樂的樂 2026-03-06 | 5/250 |
|
|
[考研] 0703求調(diào)劑 +10 | c297914 2026-03-06 | 11/550 |
|
|
[考研] 0832食品科學(xué)與工程293調(diào)劑 +3 | 東東不東 2026-03-07 | 3/150 |
|
|
[考研] 070300化學(xué)求調(diào)劑 +5 | 撲風(fēng)鈴的貓 2026-03-08 | 10/500 |
|
|
[考研] 材料與化工求調(diào)劑 +8 | 與冬清寧 2026-03-07 | 10/500 |
|
|
[基金申請(qǐng)] 第二個(gè)面上項(xiàng)目的獲批幾率如何? +3 | wawm9296 2026-03-04 | 5/250 |
|
|
[考研] 288求調(diào)劑 +5 | 好好- 2026-03-07 | 5/250 |
|
|
[考研] 材料科學(xué)(0805)338 求調(diào)劑 +7 | xiaokang3286 2026-03-07 | 7/350 |
|
|
[考研] 一志愿211 化學(xué)305分求調(diào)劑 +3 | 0703楊悅305分 2026-03-05 | 3/150 |
|
|
[考研] 一志愿211 085600 280數(shù)二英二求調(diào)劑 +3 | 月山斜 2026-03-06 | 3/150 |
|
|
[考研] 304求調(diào)劑 +4 | 52hz~~ 2026-03-05 | 5/250 |
|
|
[考研] 278求調(diào)劑 +5 | Gale1314 2026-03-06 | 5/250 |
|
|
[考研] 276求調(diào)劑 本科天津工業(yè)大學(xué) 一志愿北京化工大學(xué)0855 +4 | 路lyh123 2026-03-06 | 6/300 |
|
|
[考研] 材料調(diào)劑 +10 | ounce. 2026-03-04 | 12/600 |
|
|
[考研] 材料專碩290求調(diào)劑 +8 | 杰尼龜aaa 2026-03-04 | 8/400 |
|
|
[考研] 考研282分求調(diào)劑,接受跨專業(yè) +4 | 劉淄博 2026-03-04 | 7/350 |
|
|
[考研] 武理材料工程302調(diào)劑 +3 | Doleres 2026-03-03 | 6/300 |
|
|
[考研]
|
旅行中的紫葡萄 2026-03-03 | 4/200 |
|
|
[考研] 298求調(diào)劑 +3 | 人間唯你是清歡 2026-03-03 | 4/200 |
|