導讀:具身人工智能(Embodied AI)在智能時代先進技術的應用中扮演著關鍵角色。在智能時代,人工智能系統與物理實體相融合,使其能夠感知、推理并與環境交互。通過使用傳感器輸入和執行器執行動作,這些系統能夠根據現實世界的反饋進行學習和調整,從而能夠在動態且不可預測的環境中有效地執行任務。隨著深度學習(DL)、強化學習(RL)和大型語言模型(LLM)等技術的成熟,具身人工智能已成為學術界和工業界的領先領域,其應用領域涵蓋機器人、醫療保健、交通運輸和制造業。然而,大多數研究都集中在通常假設靜態封閉環境的單智能體系統上,而現實世界的具身人工智能必須應對更為復雜的場景。在這樣的環境中,智能體不僅必須與周圍環境交互,還必須與其他智能體協作,這就需要復雜的機制來實現自適應、實時學習和協作解決問題。盡管人們對多智能體系統的興趣日益濃厚,但現有研究范圍仍然狹窄,通常依賴于簡化模型,無法捕捉多智能體具身人工智能動態開放環境的全部復雜性。此外,尚無全面的綜述系統地回顧該領域的進展。隨著具身人工智能的快速發展,加深對多智能體具身人工智能的理解對于應對實際應用帶來的挑戰至關重要。為了填補這一空白并促進該領域的進一步發展,本文回顧了當前的研究現狀,分析了關鍵貢獻,并指出了挑戰和未來方向,旨在為指導該領域的創新和進步提供見解。
具身人工智能 (Embodied AI) [140, 39] 是人工智能 (AI)、機?人技術和認知科學交叉領域的跨學科研 究領域,旨在使機?人具備感知、計劃、決策和行動的能力,從而使它們能夠與環境互動并積極適應環境。 這個概念最早是由艾倫·圖靈在 1950 年代提出的,他探索了機?如何感知世界并做出相應的決定 [178]。后 來,在 1980 年代,包括 Rodney Brooks 在內的研究人員重新考慮了符號 AI,認為智能應該通過與環境的主 動交互而不是被動的數據學習來實現,從而為具身 AI 奠定了基礎 [18]。近年來,在深度學習 (DL)、強化 學習 (RL) 和其他技術進步的推動下,具身 AI 取得了重大進展,特別是通過應用大型預訓練模型,例如 大型語言模型
具身人工智能的主要挑戰是,智能智能體必須同時具備強大的感知和決策能力,以及通過與動態和不斷發展 的環境的持續交互來不斷學習和適應的能力[148]。從歷史上看,以圖靈機理論為代表的早期符號方法試圖 通過符號表示和邏輯推理來實現智能。然而,這些符號方法在有效解決感知和行動之間所需的動態交互方面 存在不足[128]。為了克服這些限制,Rodney Brooks 提出了“感知-行動循環”的概念,該概念認為智能是通 過代理與環境的積極和持續互動而自然產生的,從而為現代具身人工智能研究奠定了基礎 [17]。順著這種思 路,出現了模仿學習 (IL) 等學習范式,通過模仿加速了學習過程
多代理設置與單代理場景有著根本的不同,因為代理必須同時優化其各個策略并管理多個實體之間的復雜交 互。具體來說,多智能體交互帶來了挑戰,例如由于擴大的聯合行動空間和擴大的規劃視野而導致的問題復 雜性呈指數級增長,智能體之間分散的信息導致的部分可觀察性,并發智能體學習過程產生的非平穩性,以 及與準確分配個人貢獻相關的困難[244,231,2]。盡管單代理具身 AI 取得了重大進展,但多代理環境中的具 身 AI 研究仍處于起步階段。目前的研究通常采用成功的單藥
ODS 或采用 RL 和 LLM 等已建立的框架。最近,明確為具身多智能體場景量身定制的專業基準的開發已經 開始,旨在支持這一不斷發展領域的系統性進步。雖然廣泛的文獻綜述已經徹底探討了相關領域,包括具身 人工智能[140,108]、多智能體強化學習(MARL)[244,2]和多智能體合作[231,134],但明確關注具身多智能 體人工智能的全面調查仍然有限。例如,文獻 [172] 系統地總結了具身 MARL 的最新進展,涵蓋社會學習、 緊急通信、Sim2Real 遷移、分層方法和安全考慮等主題。文獻 [202] 通過回顧生成基礎模型與具身多智能體 系統 (MAS) 的集成,提出了協作架構的分類法,并討論了 p 認識到多智能體嵌入式 AI 在解決現實世界環境中復雜協調任務方面的巨大潛力,本文對這一新興研究領域 的最新進展進行了系統和全面的回顧。如圖 1 所示,我們首先介紹了基本概念,包括 MAS、RL 和相關方法 。接下來,我們討論了單代理上下文中的具身 AI,清楚地概述了核心定義、主要研究方向、代表性方法和 已建立的評估基準。在此基礎上,我們將討論擴展到多智能體具身 AI,重點介紹了廣泛采用的技術,并研 究了最近專為多智能體場景設計的突出基準。最后,我們總結了本綜述的主要貢獻,對多智能體具身人工智 能的未來發展提出了有見地的觀點,旨在刺激這一有前途且快速發展的進一步研究和創新
在本節中,我們將介紹支撐具身 AI 的核心技術,從具身 AI 本身的正式定義開始。我們還定義了 MAS 的概念
具身人工智能(圖 2)是指一類配備物理體的智能代理,使它們能夠通過持續交互感知、作和適應環境 [108 ]。具身人工智能的概念根源可以追溯到 1950 年代艾倫·圖靈的早期命題,該命題表明真正的智能必須來自 感官和運動體驗,而不是純粹的符號計算 [178]。這一概念在 1980 年代通過具身認知理論進一步正式化,該 理論認為認知本質上是由主體的物理形式和與世界的互動塑造的 [18]。與依賴于抽象推理或從靜態數據集中 被動學習的傳統 AI 范式相比,具身 AI 強調現實世界的交互作為學習和決策的基礎。
在系統層面,具身 AI 架構通常由三個緊密集成的組件組成:感知、認知和行動。代理使用物理傳感?從他 們的環境。這些感官數據由支持推理、解釋和規劃的認知模塊處理。然后,通過執行?將生成的決策轉化為物理 作,執行?會修改環境并啟動新的感知輸入。這些過程形成了一個連續的反饋循環,稱為感知-認知-行動循 環[15],這使得具身代理能夠根據環境反饋動態調整其行為。具身 AI 范式的核心是三個基本屬性,它們控 制著智能如何在物理代理中出現和發展:
Embodiment Embodied AI 植根于具有在現實世界中感知、移動和行動能力的物理代理。這些代理有 多種形式,包括人形機?人、四足動物、自主地面車輛和空中無人機。身體不僅是主體與其環境互 動的媒介,也是約束和實現其行為庫的結構基礎。身體的形態、感覺運動保真度和驅動共同定義了 代理可能交互的范圍和粒度,塑造了其所處智能的范圍。
交互性 建立在這種物理基礎上,具身智能通過與周圍環境的持續、閉環互動而出現。代理從第一人 稱視角作,參與感知、決策和行動的動態循環。每種行為不僅對環境刺激做出反應,還會改變未來 的感官輸入,形成一個支持自適應學習的豐富反饋循環。通過這種持續的參與,代理完善其策略, 獲得特定于任務的能力,并在不同環境中泛化行為,從而在真實場景中實現穩健的、上下文感知的 性能。
智能提升 具身 AI 的發展特點是能夠在認知和行為方面不斷改進。這種進步越來越多地通過大規模 多模態模型的整合來實現,這些模型賦予代理語義理解、指令跟隨和上下文推理。這些模型有助于 小樣本學習、上下文適應和跨任務的知識轉移。當代理與其環境交互時,它會逐漸調整其感知輸入 、決策過程和物理行動,從而隨著時間的推移實現即時任務成功和自主性、適應性和泛化的持續增 長。
生成模型的最新進展,特別是LLM [250],進一步擴展了具身代理的認知能力。通過利用其強大的推理和泛 化能力,LLM 使具身系統能夠理解語言指令,將語義知識建立在物理體驗中,并執行零鏡頭或少鏡頭適應 。這些發展加速了具身人工智能在機?人、自動駕駛、智能制造和醫療保健等現實世界領域的部署[114]。 重要的是,具身 AI 不僅僅是強大的 AI 模型與機?人平臺的集成;相反,它代表了一種協同進化的范式,其 中智能算法(“大腦”)、物理結構(“身體”)和動態環境共同進化以支持適應性的、具身的智能。
MAS 由多個自主代理組成,每個代理都能夠感知其環境,做出獨立決策并相應地執行作 [36]。與傳統的集 中控制范式相比,MAS 采用分散式架構,其中代理在本地交互,同時實現全球協調。這種分散式設計在可 擴展性、容錯性和適應性方面具有顯著優勢,特別是在動態、部分可觀測或非平穩環境中。MAS 的核心屬 性包括自治、去中心化、代理間通信、本地信息訪問和動態適應性。這些功能共同使 MAS 能夠處理各種復 雜的高維任務,這些任務需要并行傳感、分布式規劃和實時協調,在機?人、自動駕駛和智能基礎設施等領域有突出應用。
近年來,在基于學習的方法的融合和神經架構的進步的推動下,MAS 研究發生了重大的范式轉變。這種轉 變的最前沿是 MARL [2],它提供了一個強大的框架,使代理能夠通過交互學習復雜的行為。使用分散執行 的集中訓練 (CTDE)、參數共享、信用分配和對手建模等技術已被廣泛采用,以解決包括非平穩性、協調 性和部分可觀察性在內的核心挑戰。作為對這些進步的補充,LLM 的集成為 MAS 開辟了新的功能。支持 L LM 的代理可以訪問大量的預訓練知識,通過自然語言進行交流,并參與高級推理和抽象,這些功能超越了 傳統策略驅動系統的限制。因此,強化學習和基礎模型的融合正在重塑 MAS 的格局
分層學習是一種學習范式,它將學習過程組織成多個抽象層次,較高層次負責設定抽象目標或意圖,而較低 層次則專注于執行更具體、更細粒度的子任務(參見圖 6)。這種分層結構使模型能夠在不同的粒度級別上 運行,從而通過將復雜任務分解為更簡單、可管理的組件來提高解決復雜任務的效率和可擴展性 [138]。 分層學習的核心過程通常包括兩個階段:低級策略學習和高級策略學習。低級策略學習旨在掌握基本的子任 務,通常使用傳統的控制方法(如 MPC)[162, 46, 41]或通過端到端 RL [217, 96] 實現。
相比之下,高 級策略學習負責協調所學的低級技能以實現更復雜的目標。這通常是通過 RL 或與 LLM 一起規劃來實現的 。在基于 RL 的高級策略學習中,作空間被定義為一組學習的低級策略。然后使用來自環境的獎勵信號訓練 參數化的高級策略,以有效地選擇和排序這些低級技能[217,96]。相比之下,基于 LLM 的高級策略學習通常 涉及提供任務目標和可用的低級策略集作為 LLM 的輸入,然后 LLM 通過以下方式直接生成結構化計劃
生成模型構成了機?學習的基礎范式,其中心目標是捕獲訓練數據的基礎分布,以生成具有相似特征的新樣 本。這些模型已在視覺、語言和多模態學習等領域得到廣泛應用。近年來,LLM 和 VLM 等大規模生成模 型的出現極大地推動了該領域的發展。他們的成功在很大程度上歸功于強大的泛化能力、海量數據集的可用 性和可擴展的架構。這些模型的核心是幾個關鍵的架構框架,包括 Transformers [180]、擴散模型 [69],以及 最近的狀態空間模型 (SSM),如 Mamba [59]。 其中,Transformer 架構在徹底改變序列建模方面發揮了關鍵作用。Transformers 最初被提議用于機?翻譯, 它通過引入一種基于注意力的機制來消除遞歸或卷積的需要,該機制使序列中的每個元素都能夠直接關注其 他每個元素(參見圖 8(a))。這種設計有助于高效的并行計算,并允許模型捕獲全局上下文依賴關系。 核心注意力機制在數學上定義為:
盡管 emboded agents 是為現實世界中的交互式任務而設計的,但基準測試在標準化性能測量、指導研究重點 和降低實際測試成本方面仍然發揮著至關重要的作用。近年來,嵌入式 AI 基準測試的開發取得了長足的進 步。我們在表 2 中總結了幾個具有代表性的示例,并在圖 14 中進行了介紹。列出的基準包括
ALFRED [157] 是一個基準,旨在評估具身代理通過一系列物理交互來接地和執行自由形式的自然 語言指令的能力。它基于 AI2-THOR 模擬?構建,包括 120 個視覺和功能不同的家庭場景,其中代 理的任務是完成涉及導航、對象作和不可逆狀態變化的目標。這些任務涵蓋 7 類家庭活動,涉及 58 種不同的對象類型。為了支持學習和評估,該數據集提供了 25743 個人工編寫的指令以及 8055 個 專家演示。代理從以自我為中心的 RGB-D 輸入中感知環境,并使用一組預定義的 13 個離散低級動 作進行作。交互目標是通過像素級掩碼定義的,
RoboTHOR [34] 是一個用于具體 AI 的模擬到真實平臺,提供成對的模擬和物理環境,旨在實現一 致的跨域評估。它包括 75 個訓練和驗證場景,以及 24 個保留的測試場景(14 個用于測試開發,10 個用于測試標準),所有這些都由支持靈活重新配置和擴展的模塊化資源庫構建而成。代理通過統 一的 AI2-THOR API 與環境交互,并且可以遠程部署在 LoCoBot 機?人上,其噪聲動態與模擬中的 機?人緊密匹配。
RobustNav [25] 是一個基準框架,用于評估隱含導航代理在現實環境和傳感?損壞下的魯棒性。它 通過在 15 個驗證場景中引入 7 種視覺損壞(例如,運動模糊、相機裂紋、低光照)和 3 種動態損 壞(例如,運動偏差、漂移、電機故障)來擴展標準 PointGoal 和 ObjectGoal 導航任務。根據成功 率和 SPL 對代理進行評估,包括固定的無監督“校準預算”之前和之后。基準強調了腐敗下性能的 顯著下降,強調了穩健感知、多模態傳感和自適應政策學習的重要性。
行為 [164] 是在虛擬、交互式環境中評估日常家庭活動中具身 AI 代理的基準。它使用基于謂詞邏輯 的語言定義了 100 種真實、多樣和復雜的雜務,并支持 iGibson 2.0 中與場景無關的無限實例化。基 準包括 500 個人類 VR 演示,并提供評估指標,例如成功分數、任務效率和以人為本的績效。所有 代碼、任務定義和數據都是公開可用的,以促進在具身 AI 中進行可重現的研究。
《多智能體具身智能:進展和未來方向》原文鏈接:
https://www.deeprlhub.com/d/1603/2
文章來源:深度強化學習實驗室