近日,昆仲天使投資企業(yè)「戴盟機(jī)器人」聯(lián)合創(chuàng)始人兼首席科學(xué)家王煜受邀出席以“讓AI成為創(chuàng)新生產(chǎn)力”為主題的聯(lián)想Tech World2025創(chuàng)新科技大會(huì)。大會(huì)上,二百余位產(chǎn)學(xué)研各界精英與權(quán)威專家匯聚一堂,共同分享具身智能的最新科研成果及實(shí)踐經(jīng)驗(yàn),積極探索 AI 技術(shù)在具身智能領(lǐng)域的創(chuàng)新突破路徑與商業(yè)化落地模式。
圍繞機(jī)器人如何獲得豐富的操作能力、機(jī)器人如何落地實(shí)用場(chǎng)景等問(wèn)題,王煜教授分享了《具身智能——機(jī)器人操作技能與人工智能技術(shù)融合》的主題演講。
機(jī)器人落地工業(yè)應(yīng)用場(chǎng)景,關(guān)鍵在于靈巧操作能力
王煜教授在演講之初提出:今年或?yàn)槿诵螜C(jī)器人工業(yè)應(yīng)用元年。他強(qiáng)調(diào),機(jī)器人實(shí)現(xiàn)工業(yè)場(chǎng)景落地的核心在于突破精細(xì)操作與任務(wù)泛化能力——一旦機(jī)器人掌握靈巧操作技能,其應(yīng)用場(chǎng)景將廣泛拓展。
以半導(dǎo)體和電子產(chǎn)品的制造場(chǎng)景為例,雖然前端工序已高度自動(dòng)化,但后端異形零件裝配仍嚴(yán)重依賴人工。普通工人經(jīng)短期培訓(xùn)即可勝任的工作,對(duì)機(jī)器人卻是巨大的挑戰(zhàn)。王煜教授認(rèn)為,機(jī)器人系統(tǒng)需構(gòu)建具備認(rèn)知決策能力的“大腦”與泛化操作能力的“小腦”協(xié)同架構(gòu),讓機(jī)器人真正擁有靈巧操作的能力。
機(jī)器人無(wú)法完成簡(jiǎn)單任務(wù)的背后——論觸覺(jué)對(duì)于靈巧操作的重要性
王煜教授指出,當(dāng)前業(yè)界普遍采用視覺(jué)-語(yǔ)言-動(dòng)作(Vision-Language-Action,VLA)大模型來(lái)實(shí)現(xiàn)機(jī)器人操作。在該框架下,視覺(jué)模塊(V)使機(jī)器人能夠解析環(huán)境場(chǎng)景,語(yǔ)言模塊(L)幫助其理解操作指令,而動(dòng)作模塊(A)則負(fù)責(zé)將語(yǔ)義信息轉(zhuǎn)化為具體的運(yùn)動(dòng)、操作執(zhí)行。然而他強(qiáng)調(diào),機(jī)器人實(shí)現(xiàn)從語(yǔ)言理解到精準(zhǔn)動(dòng)作的執(zhí)行仍面臨挑戰(zhàn)。
他補(bǔ)充,實(shí)現(xiàn)機(jī)器人的基礎(chǔ)移動(dòng)功能(Locomotion)相對(duì)簡(jiǎn)單,而使其完成復(fù)雜操作任務(wù)(Manipulation)則有難點(diǎn)——這要求機(jī)器人必須掌握真正的操作技能與執(zhí)行能力。
人類可以輕松完成擰螺絲、擰瓶蓋等操作,這得益于雙手敏銳的觸覺(jué)、力覺(jué)反饋和手指形變等感知信息。但對(duì)機(jī)器人而言,這些看似簡(jiǎn)單的動(dòng)作卻極具挑戰(zhàn)——關(guān)鍵在于缺乏觸覺(jué)感知。沒(méi)有觸覺(jué)感知的機(jī)器人,不僅操作速度緩慢,更難以完成精細(xì)、復(fù)雜的任務(wù)。
王煜教授介紹,戴盟在開(kāi)始做人形機(jī)器人之初,便將觸覺(jué)傳感器確立為最重要的產(chǎn)品開(kāi)發(fā)。今年4月,戴盟發(fā)布了全球首款多維高分辨率高頻率視觸覺(jué)傳感器DM-Tac W。DM-Tac W采用了基于單色光的圖案追蹤原理的技術(shù)路線,成功攻克了視觸覺(jué)傳感器算力要求高、發(fā)熱量大、耐用性差等難題,顯著降低了生產(chǎn)成本。
DM-Tac W賦予夾爪等執(zhí)行末端類人觸覺(jué)能力,已應(yīng)用于工業(yè)自動(dòng)化、消費(fèi)電子、智慧物流等場(chǎng)景。基于此,戴盟還將視觸覺(jué)傳感器的厚度開(kāi)創(chuàng)性地減少到毫米級(jí)別,可輕松集成于五指靈巧手等執(zhí)行末端。
業(yè)界共識(shí)與趨勢(shì):通過(guò)大規(guī)模、高質(zhì)量數(shù)據(jù)進(jìn)行機(jī)器人模仿學(xué)習(xí)
王煜教授引用其導(dǎo)師Matthew Mason的觀點(diǎn)指出:機(jī)器人操作面臨的根本挑戰(zhàn)在于與真實(shí)世界的交互,真實(shí)世界既遵循物理規(guī)律,又充滿不確定性——并非所有現(xiàn)象都能被完全理解和預(yù)測(cè)。若缺乏豐富的感知能力,機(jī)器人將難以應(yīng)對(duì)環(huán)境變化,從而影響任務(wù)完成度。
今年,戴盟全球首款多維高分辨率高頻率視觸覺(jué)傳感器DM-Tac W,已在具身智能領(lǐng)域樹(shù)立了技術(shù)與產(chǎn)品的雙重標(biāo)桿,基于前沿的觸覺(jué)感知技術(shù),戴盟將持續(xù)挖掘機(jī)器人學(xué)習(xí)方法。
王煜教授分享了行業(yè)最新動(dòng)態(tài):波士頓動(dòng)力與英偉達(dá)達(dá)成戰(zhàn)略合作,共同開(kāi)發(fā)基于人類行為建模的“大行為模型”(Large Behavior Model)。該技術(shù)路線不依賴傳統(tǒng)物理事件模型,采用仿真數(shù)據(jù)建立基礎(chǔ)的模型,通過(guò)引入真實(shí)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練并得到真實(shí)可靠的模型,進(jìn)一步引入操作與人機(jī)交互的真實(shí)數(shù)據(jù)來(lái)提升模型可靠性。
他提到,當(dāng)前機(jī)器人模仿學(xué)習(xí)主要采用兩種訓(xùn)練路徑:一是通過(guò)仿真環(huán)境生成的數(shù)據(jù)進(jìn)行訓(xùn)練,二是通過(guò)真實(shí)物理世界中機(jī)器人操作的數(shù)據(jù)進(jìn)行訓(xùn)練。第二種方式需要大規(guī)模、高質(zhì)量數(shù)據(jù)支撐,低質(zhì)量數(shù)據(jù)反而會(huì)影響學(xué)習(xí)效果。為此,戴盟推出了穿戴式遙操作系統(tǒng)DM-EXton,專為機(jī)器人遠(yuǎn)程操控、數(shù)據(jù)采集及學(xué)習(xí)訓(xùn)練而設(shè)計(jì)。
從神經(jīng)科學(xué)視角看機(jī)器人設(shè)計(jì):聚焦于核心功能需求
王煜教授還從神經(jīng)科學(xué)的角度分享了他對(duì)未來(lái)機(jī)器人設(shè)計(jì)的思考。人類大腦皮層的功能分配揭示了操作能力的生物學(xué)基礎(chǔ),通過(guò)經(jīng)典的感官腦皮小人(Sensory Homunculus Model)可見(jiàn),大腦皮層中負(fù)責(zé)面部和手部功能的區(qū)域占據(jù)了最大比例,這印證了人類的智慧主要服務(wù)于精細(xì)操作、語(yǔ)言交流和社會(huì)互動(dòng)等需求。
他認(rèn)為,真正實(shí)用的機(jī)器人未必會(huì)完全仿照人類形態(tài),而是聚焦于核心功能需求。未來(lái)的機(jī)器人可能會(huì)擁有一雙高度發(fā)達(dá)的手,憑借強(qiáng)大的感知能力、豐富的靈巧度完成精細(xì)、復(fù)雜的操作任務(wù),滿足不同落地場(chǎng)景的需求,展現(xiàn)真正的社會(huì)價(jià)值。