在前不久舉辦的2025張江具身智能開發者大會暨國際人形機器人技能大賽上,北京大學前沿計算研究中心助理教授、北京銀河通用機器人有限公司創始人及CTO王鶴發表了題為《合成數據驅動的具身端到端大模型》的主題演講。以下為演講實錄:
非常榮幸來到大會,去年第一次舉辦時我有幸參加,今年第二次來作報告,和大家探討具身端到端大模型的最新進展。
通用人形機器人的核心是通過具身智能驅動高度仿人的本體,實現 “人干的活,機器人都能干”,這也是銀河通用創立的初心。在硬件技術不斷迭代的同時,我們一定要關心背后的具身智能。剛才江首席也提到,很多國際同行不約而同匯聚到 VLA 這條技術路線上,也就是用多模態的端到端大模型,以視覺和語言作為輸入,給它任何指令后,它能不斷進行閉環的視覺觀測,最終高頻輸出動作來控制機器人的本體。這樣的 VLA 大模型是在 LLM、VLM 之后,從數字世界跨入物理世界的關鍵具身大模型。
▍真實數據與合成數據博弈:具身智能發展的核心瓶頸
今天具身大模型面臨的最大困難是數據不足。我們知道,大語言模型 LLM 和多模態大模型 VLM 的數據主要來自互聯網,而 VLA 的數據主要是 action 數據,目前大家不得已在做大規模的真實世界數據采集。但在人形機器人剛剛開始量產的當下,依賴真實數據采集不可避免受限于機器人的臺數、能雇傭的遙操工人數量和整體預算額度。國外像特斯拉這樣的大廠可能有 500 臺左右規模的數據采集,斯坦福聯合 google 等機構做的 open embodiment X 數據集達到了 100 萬條的規模。如果類比自動駕駛,頭部車廠每天回流的數據大約在 1 億條,今天我們最大的數據集在百萬條規模,若完全依賴真實世界數據采集,要做到比自動駕駛更多的無窮無盡的任務,還需要等不短時間,這是具身智能發展的瓶頸。
所以從在北大,到創立銀河通用,在智源研究院進行具身智能中心的研究,我們認為在人形機器人草創的當下,應該大力發展合成數據,用合成數據突破具身數據量不足、質不精的困境。我們的一系列工作,從物體資產的生成到靈巧手抓取軌跡姿態的生成,到彌合真實與虛擬 Sim 和 Real 之間的差異,到在大規模仿真環境中進行強化學習的大規模訓練,都在試圖在合成世界、仿真世界尋求數據突破。
▍端到端抓取基礎大模型:合成數據的零樣本泛化驗證
今年早些時候,我們推出了全球首個完全基于合成大數據訓練的 VLA 大模型 ——GraspVLA,基于 10 億級別的合成大數據,遠超任何真實數據集的規模,做了第一個端到端的抓取基礎大模型 foundation model。
這個 foundation model 做到了不在真實世界采任何一條數據,直接在真實世界測試。用 10 億的合成大數據,我們在 Vision、Language、Action 各個層面進行了充分的 zero shot 泛化。
在從來沒見過的各種真實世界環境里,變換各種光照,只用一個自然語言指令比如 “抓取鴨子”,就能把從來沒見過的小鴨子在各種不同的、從明入暗的具有挑戰性的環境當中抓取起來。這種很強的分布外泛化,原因是我們有充分的訓練數據,而不是只在測試場景里過擬合采一小部分數據只在這個場景工作。模型是我們自己開發的 2.7B 也就是 27 億參數的端到端大模型,是閉環的,鴨子位置被人移動后,手會立即移動。
這個工作不只針對桌子,還可以換各種各樣桌面的紋理、光照、背景,在桌子上放各種各樣的東西,支持開放詞匯,至少上萬種物體的抓取。這里展示的購物車玩具、挖掘機玩具、游泳眼鏡、測電筆,這些類別在合成數據里都不包括,屬于多模態 VLM 的預訓練過程中在互聯網上見過的物體類別,在真實世界用語音說,它就能幫你抓起來。訓練出的 27 億參數大模型,完全沒有訓練過對干擾的抵抗,在真實世界里,讓它抓的物體不斷被各種東西干擾,它能穩穩抓住目標物體。這些能力都是在10 億規模的合成數據上訓練后自然涌現出來的,這讓我們看到當有高精的物理仿真后,能達到的模型質量。
這樣完全基于合成數據訓練的模型,在真實世界部署時,可以用少量真實數據跟人的意圖對齊。比如有一箱礦泉水,如果沒在真實世界采集數據,合成環境里也沒仿過一箱礦泉水,讓模型去抓,它會隨機抓一瓶,而我們希望它拆礦泉水時從左到右、從前到后一瓶一瓶拆。其實抓取能力在合成環境里已經完全學會,現在只需要演示給它看希望它從左到右從前到后的抓,這樣的數據只需要 200 條,20 瓶礦泉水一共 200 條數據,一個人類遙操工人一天下午半天的工作量就能完成模型數據的采集。這比特斯拉做放電池少很多,特斯拉做放電池采集了 10 萬條數據,40 個人采集了上月,我們是反過程,把密放盒子里的水瓶抽出來,難度相當,實現了 500 倍的數據效率。
不僅如此,大模型還能進行 zero shot 的零樣本泛化,在從來沒見過的同類型飲品上直接測試。左邊是農夫山泉,右邊是東方樹葉,模型真正實現了泛化,瓶數從一排四瓶變成一排三瓶,蓋子大小、顏色都變化了,模型能把飲品抓起來,這些都是涌現。
GraspVLA 的工作向全世界第一次證明了合成數據的效力,當它的精度、分布正確時,訓練出的模型是真正的基座大模型,能用極少數據微調,實現在真實世界非常泛化的能力。
▍靈巧手操作與復雜任務:合成數據管線的全流程突破
基于這樣的思路,我們進一步從二指夾爪到靈巧手。這是 2024 年的工作,合成大規模的靈巧手雜亂場景的抓取,在全世界率先實現多指靈巧手對任意雜亂場景的抓取,可以是透明的、黑色的、反光的。那時做的是抓取小模型,還沒有語言,現在需要用語言形容手怎么抓。
這樣的數據怎么合成呢,不是要人一個一個抓去標注或者戴遙操手套遙控靈巧手,今年銀河通用全球第一個展示了人類所有 33 種功能性抓取一條管線全部合成。人類的手分類學家把人手的抓取模式分類成 33 種,從大尺度抓、小直徑包、中尺度的握,包括大拇指豎力的摁,到使用剪刀、筆、筷子的抓法等等。我們自研的合成數據管線實現了一個管線合成任意物體、任意手上的任意 33 種之中的所有抓取姿勢,這樣的合成數據管線能讓我們形容想怎么抓,模型就可以去相應的抓。
這里展示真機實驗,對一盒藥可以用 33 種的一個標簽,第一種是握,模型就去握抓藥盒;第二種是小直徑的包,是這樣的;對抓針的方式 24,它用抓針的方式去抓藥盒。用這樣的合成數據,就能訓練出靈巧手抓取的 VLA,想讓它怎么抓就怎么抓,直接對接下一步怎么用物體,因為靈巧手抓完后還要進行操作,只有第一步抓的方式對了,后面才能操作,這都是自研的合成數據管線支持的。
現在如果想標注一個物體怎么抓,管線支持點一個點,選擇抓取模式,3 秒鐘后抓取位姿就合成在物體上,可以想象整個操作過程,進行關鍵幀的抓取位姿標注,再用自動合成管線讓手移動到這些過程,自動產生高精的軌跡,原先需要遙操的內容,現在點鼠標就能完成,相信只有不斷推進合成數據,才能讓人形機器人多快好省地快速發展。
不僅是抓取,銀河通用對剛柔一體的混合仿真也進行了研究,自研的仿真管線能夠把撐子塞到衣服里頭再把衣服掛起來。銀河通用的機器人只訓練了合成數據,在真實世界里對各色顏色的衣服,都可以把撐子找角度插進衣服里頭,不管是雞心領、圓領,長袖、短袖,各種皺褶、顏色,模型都是充分泛化的,現場真實演示接待過副國級、正部級的各種領導,展現合成數據訓練的模型的泛化性,很多衣服都是沒見過的。合成大數據一口氣生成了衛衣、褲子、短袖、跨欄背心、長袖等各種各樣的衣服資產,在這之上進行高精的操作合成。
這是一個長程過程,有皺褶要頓平,在兩邊再頓平再進行疊,長程操作的合成數據,都自研管線進行合成。合成的疊衣服大數據再次實現完全沒有真實數據采集,在真實世界對可以買到的各種各樣的衣服進行真機疊放,模型是端到端的閉環模型,整個過程完全自主往前推怎么去疊,過程中如果有干擾,這是模型實時輸出的末端軌跡,衣服被扒拉過去,它自己拽過來,再扒拉一下,它又去疊,整個閉環過程都是閉環的模型在合成大學習以后自己處理的。
▍導航與跟隨:合成數據驅動的動態環境適應
其實今天不僅僅是上半身的各種操作,還有人形機器人的導航,銀河通用去年在合成的 360 萬的數據規模上訓練的導航大模型 Uni-NaVid,給它說一句話,完全不見圖,用視覺作為輸入,實時的動作作為輸出,它就能執行。比如跟著人走,跟著右邊的人走,直到看到沙發后就別跟了,然后右轉開始找電視。兩個同學對狗進行了干擾,最后狗還是成功停在了電視面前。
在去年的時候,這個水平是實驗室級別的東西,今年補充了大量跟人的合成大數據,現在機器狗完全在對人類的跟隨上,實現了各種場景的魯棒跟隨,各種椅子腿試圖別搭載了銀河通用大模型的宇樹四足機器狗 Go2,人做的動作很瘋狂,模型實時像自動駕駛一樣輸出軌跡,對同學進行很好的跟隨。這是第三視角,怕大家看不明白,狗會自動避讓沙發,避讓各種椅子腿,對人進行跟隨,甚至人在畫面里急跑跑出攝像頭范圍,自動駕駛仍能對人進行跟隨。
大家都知道自動駕駛是上百萬車主開出來的,但今天不管是人形機器人還是機器狗,沒有人愿意駕駛它們,所以重做一遍,不搞真實數據,搞合成數據去訓練。我們同學在北大里頭進行常識的行走,在為民湖畔讓機器狗跟著同學一直走,模型仍是 VLA 大模型,只要跟模型說一句話,跟著前面穿黑衣服黑褲子的同學,不是只跟一個同學,換衣服描述,就跟另外一個同學。跟隨過程中遇到各種電動車、人流阻擋,機器狗陪著同學在北大里遛彎。
有人問這東西跟跟拍機怎么比,現在有 vlog 的跟拍機,它是對人做 object detect 目標檢測,跟著檢測框走,如果突然消失會怎么樣。和商用的 vlog 跟拍機對比,在拐角消失時,跟拍機失敗,機器狗還能繼續跟隨;人在路中間急轉,跟拍機目標突然失蹤,機器狗能跟蹤。現在在萬達的大商場里都進行了常識的測試,過幾天會放出整個視頻,讓大家理解完全用合成數據訓練的跟隨模型能在真實世界達到什么水平。
▍商業化應用:合成數據支撐的多場景落地實踐
今天銀河通用結合在各種操作和全身控制跟隨上的能力,訓練的多技能的 VLA 大模型支撐了各種商用。我們的理念是合成數據是義務教育,用它免費進行基本教育,數采搭建的整套流程僅進行職業教育,相對于合成的百億數據,它只是一部分,只有這樣,才有望在百臺千臺級的真機采集上實現真實世界的商用。所以今天在零售、接待、康養和工廠里頭有一系列的工作。
這是今天在張江大會現場給現場觀眾展示的商超的下貨,在 ipad 上下單,人形機器人去送,感興趣的來賓可以體驗,還能上貨,知道貨往哪上,這套上下貨的流程現在已經徹底商用了。在合作伙伴平臺上進行下單,在店里人形機器人為人取貨,這樣的 24 小時無人藥店可以解決夜間需要人一直睡在店里的問題,像這樣的店,銀河通用已經簽了 100 家的訂單,在北京已經實現了 6 家店常態化運營,9 家店完成選址,今年年底 100 家店全部開好。一個 40 平米的店里頭,5000 個不同的藥品,6000 多個不同的貨到幾萬盒各種各樣的藥品,現在全是人形機器人一個人值守。
剛剛李區也講到要探索真正可復制的商業模式,什么是真正可復制的商業模式,就是能在這些店里頭快速部署,開一家店只需要兩天,算法可以在一個新店里兩天完成部署,場景里頭既有開放式貨架,又有需要精密抽取的貨架,又有抽屜,都可以進行全部的自主操作,最終外賣員從貨柜里頭輸入密碼直接取走。今年也受到張江政府和集團的大力支持,在 25 年年底,將在張江部署 7 到 10 家無人藥店,在整個上海部署 20 到 30 家無人藥店,向公眾展示真正可批量復制的人形機器人全天候解決方案。
最后簡要介紹在工業里頭的情況,比如在極氪的工廠里頭進行的常識的物料搬運,完全基于視覺,沒有二維碼、沒有建圖,整個的料盤都是隨機擺放的。在現代的工廠里頭進行 SPS 分解,各種凌亂的零部件,ipad 端下單,人形機器人對它進行直接的揀選,過程中涉及全黑的物料,而且雜亂擺放,要進行精確的抓取。這邊是韓國現在的三位 EVP 現場檢驗人形機器人干活的效果,得到了韓國現代集團的高度贊揚,他們收購了波士頓動力。這個視頻后面還有對貨箱搗亂,打亂位置,把旁邊的泡沫塑料都拆下來,考驗人形機器人能不能泛化處理,通過了韓國現代集團全面的考驗,這應當也是當前代表著車廠 SPS 分揀的全球最高技術。
在阿布扎比運行的禮品店,銀河通用的機器人去年圣誕節招待了上千的客戶,今天在宜賓開展的具身智能示范區萬象天地里頭,銀河通用成功開始了一個零售店的運營和咖啡店的運營,相信這些的泛化的取放能力將慢慢走入大家的日常生活進行常態化的展示。在今年的 CES2025 上,銀河通的機器人也被入選了 14 個合作伙伴之一,并且作為最有特色四個人形機器人之一,舉起了英偉達最新發布的顯卡。相信人形機器人不僅將托舉起芯片行業的未來,也會逐漸走入千行百業、千家萬戶。
謝謝大家!