近日,Figure 發布的端到端 VLA 具身大模型 Helix,采用分層架構同時實現高頻控制和高泛化能力,引起了業內廣泛關注。幾乎同期,中國具身智能團隊靈初智能發布了基于強化學習的增強版分層架構端到端 VLA 模型 Psi R0.5,這距離靈初智能團隊去年底發布的 Psi R0 僅 2 個月。
本次發布的新模型重大升級,對于復雜場景的泛化性、靈巧性、CoT、長程任務能力上均有顯著提升,同時完成泛化抓取訓練所需的數據量僅需 Helix 數據量的 0.4%!在全球范圍內實現了泛化靈巧操作與訓練效率的雙重領先。
此外,靈初智能團隊連發四篇高質量論文,將團隊在高效實現泛化抓取、堆疊場景的物品檢索、利用外部環境配合抓取、VLA 安全對齊方面的最新成果悉數公開,展現了中國團隊在具身智能領域的強悍戰斗力。
Psi R0.5 路徑演進圖
DexGraspVLA僅需兩小時靈巧手抓取數據
輕松實現物品、燈光、場景泛化并實現真正 CoT
DexGraspVLA 是首個用于靈巧手通用抓取的 VLA(Vision-Language-Action)框架,通過少量的訓練,即刻在多變環境下智能涌現靈巧操作能力,能夠像人類一樣快速、準確地拾取各種物品。
DexGraspVLA 是一個融合視覺,語言和動作的層次化框架:
· High-level Planner:高層規劃由預訓練的大型視覺語言模型(VLM)實現,可理解多樣化指令、自主決定抓取策略。
· Low-level Controller:低層擴散策略通過實時視覺反饋,閉環掌握目標物體,智能涌現出靈巧操作能力。
整個框架的核心在于將多樣化的圖像輸入數據通過現有的 Foundation Model 轉換成 Domain-invariance 的表征,并端到端地訓練下層控制模型。
DexGraspVLA 框架圖
從實驗結果看,靈初智能僅使用了約 2 小時的靈巧手抓取數據(2094 條軌跡 × 3.5 秒 / 條 ÷ 60 秒 / 分鐘 ÷ 60 分鐘 / 小時 ≈ 2 小時),泛化到上千種不同物體,位置,堆疊,燈光,背景下成功抓取,而這個數據量僅僅是 Figure 的 0.4%,數據利用效率提高 250 倍!
同時,DexGraspVLA 相比現有方案還具有幾項優勢:
· 根據語言指令分辨出目標物體,處理堆疊場景下的目標物體的檢索并抓取
· 抓取速度快(所有視頻無加速,同類工作中節拍較快),閉環姿態矯正與重抓取能力(ReGrasp)
· 大腦具有 CoT 長程推理能力:自主推理抓取順序并將所有物體依次抓取
DexGraspVLA 展現出對光照變化、背景干擾和物體姿態的強大魯棒性和泛化性,讓機器人的靈巧抓取達到人類級別。
基于預訓練的大模型:使用自然語言與人類交互,具有高智能的長程推理能力,能夠自主理解人類話語并推理任務。因此可以一次設定多個抓取目標,通過 CoT 實現復雜流程下的自動分揀或清理。
DexGraspVLA 仍然會自動分析當前姿態偏差,通過細微調整腕關節和手部角度重新嘗試抓取,實現非常魯棒且高效的抓取能力,達到極強的泛化能力。
Retrieval Dexterity
堆疊場景中的高效物體檢索策略
強化學習底層驅動,簡單 reward 涌現復雜動作
在大多數實際場景中,物品往往以無規則、堆疊的方式擺放。傳統方法要求機器人逐件搬開遮擋物,不僅耗時,還對機器人自身抓取能力提出了很高的要求。
為了解決這一難題,靈初智能開發了一套基于強化學習的物體檢索策略 ——Retrieval Dexterity,解決了堆疊場景中物體檢索識別效率低的問題。
Retrieval Dexterity 系統中未用真機數據,靈初團隊沒有采用真機數據進行訓練,而是直接在仿真環境中通過強化學習進行訓練。通過在仿真環境中大規模生成復雜的堆疊場景,訓練模型直至涌現出合適的檢索操作,隨后再將這些操作零樣本遷移至現實機器人和復雜環境中。
Retrieval Dexterity 框架圖
從雜亂堆疊物體中快速取出目標物體
在超過 10 種不同形狀、大小的生活物品測試中,Retrieval Dexterity 展現出了優秀的性能,不僅能夠高效完成訓練過的物體的檢索任務,還能將檢索能力泛化到未見過的新物體上。
效率對比傳統方法提升明顯
與人為設定的動作相比,Retrieval Dexterity 在所有場景中平均減少了 38% 的操作步驟。與模擬的 “將所有物體抓起來并放開” 相比,該方法更是平均減少了 90% 的步驟數量。這種效率提升主要得益于多指靈巧手能夠直接與遮擋物進行交互,并隨時移動它們,而不需要逐個移除。
ExDex:借力外部環境
抓取 “不可能” 物體
外部靈巧性解決物品超過機器人末端執行器的最大開度問題
當物體的底面尺寸超過機器人末端執行器的最大開度時,傳統方法往往無法直接對物體進行抓取,這種情況在商場等商業場景尤為常見。為了解決這一難題,靈初智能推出了 ExDex—— 一種基于外部靈巧性(extrinsic dexterity)抓取的創新解決方案。
ExDex 能夠利用環境特征進行非夾持式操作,憑借多指靈巧手的靈活性和操作能力,實現更豐富的環境交互。
強化學習帶來超越人類遙操作水平的靈巧操作
通過強化學習,ExDex 涌現出自主制定策略的能力,借助周圍環境抓取那些無法直接抓取的物體。例如,機器人可以將物體先推到桌面邊緣或墻體邊緣,再利用這些環境特征完成抓取任務。這種操作通過傳統的遙操作方式幾乎無法實現,充分體現了強化學習的強大優勢。
在對數十種不同家居物品的大量實驗中,ExDex 驗證了其優越的性能和對新物體的泛化能力,并成功將仿真訓練的策略無縫遷移到真實機器人中,實現了從仿真到現實的高效過渡。
SafeVLA:人機安全交互的 “守護神”
當下,具身智能機器人頻繁出圈,從春晚跳舞的 Unitree 人形機器人,到波蘭街頭遛機器狗的新奇場景,讓人看到人機交互的無限可能,但安全問題也不容忽視。視覺 - 語言 - 行動模型(VLAs)在革新機器人技術時,也藏著安全隱患。
左圖呈現了傳統 VLA 模型在抓取任務中的三種典型不安全行為:1)對無關物體的嚴重損壞,2)目標識別錯誤導致危險物體的誤用,以及 3)執行指令時與危險物體發生交互。右圖通過導航路徑示例,進一步展示了傳統 VLA 在導航過程中的三種不安全行為
本周,北京大學 PAIR - Lab 團隊攜手靈初智能重磅推出了具身安全模型 SafeVLA,通過安全對齊,讓機器人在復雜場景安全高效執行任務,在對抗干擾場景中魯棒性極高。
SafeVLA 把 “以人為本” 刻進 DNA,不像傳統機器人只盯著任務完成,它把人類安全放在首位。技術上,引入約束馬爾可夫決策過程(CMDP)范式,把現實安全約束融入仿真環境大規模采樣。SafeVLA 在安全性和任務執行方面均取得突破性進展,分別提升 83.58% 和 3.85%,充分證明了其在平衡安全與效率方面的卓越能力。
傳統 VLA 模型完成任務過程中的高危行為
團隊開發全新仿真環境 Safety - CHORES,集成安全約束功能,支持用戶自定義規則,代碼還完全開源,直接給全球研究者和開發者送福利。而且,SafeVLA 在 12 個分布外(OOD)實驗里,面對光照、材質變化和復雜環境擾動,始終穩定發揮,實力碾壓其他模型。
SafeVLA 在正常測試集和 OOD 測試集上的比較,其在 OOD 環境下依然保持良好安全性和表現
本文鏈接:http://www.020gz.com.cn/news-14-7388-0.html靈初智能發布端到端VLA模型PsiR0.5,僅需兩小時數據實現物品、場景全面泛化
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇:企業智能化升級關鍵:DeepSeek大模型技術與應用論壇來了!
下一篇:賽力斯申請注冊問界智享商標
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕