當(dāng)前,具身智能無(wú)疑是科技領(lǐng)域最炙手可熱的詞匯之一。從波士頓動(dòng)力的驚艷展示,到各路巨頭紛紛布局,人形機(jī)器人似乎正從科幻走向現(xiàn)實(shí)。在2025世界機(jī)器人大會(huì)的舞臺(tái)上,具身智能無(wú)疑是引人矚目的焦點(diǎn)。在這片繁榮景象之下,具身智能的商業(yè)化落地之路卻并非坦途,仍面臨諸多痛點(diǎn)、難點(diǎn):
數(shù)據(jù)荒漠化與數(shù)據(jù)質(zhì)量參差不齊:盡管大語(yǔ)言模型取得了重要突破,但對(duì)于需要與物理世界交互的具身智能而言,高質(zhì)量、長(zhǎng)程、多模態(tài)的動(dòng)作數(shù)據(jù)仍然極度稀缺。現(xiàn)有的數(shù)據(jù)集往往規(guī)模小、質(zhì)量低,難以支撐模型的有效訓(xùn)練。
模型泛化能力不足:現(xiàn)有模型在特定場(chǎng)景下表現(xiàn)良好,但面對(duì)復(fù)雜多變、開放式的真實(shí)物理世界,其泛化能力亟待提升。尤其是跨本體、跨任務(wù)的遷移學(xué)習(xí)能力,是制約其大規(guī)模應(yīng)用的關(guān)鍵瓶頸。
軟硬件深度耦合與一體化挑戰(zhàn):具身智能并非簡(jiǎn)單的“AI+機(jī)器人”疊加,而是“機(jī)器人+AI”的深度融合。這意味著從本體設(shè)計(jì)、傳感器選型、執(zhí)行器控制到數(shù)據(jù)采集、算法訓(xùn)練、應(yīng)用落地,都需要緊密耦合、協(xié)同優(yōu)化,對(duì)企業(yè)的全棧能力提出了極高要求。
場(chǎng)景落地與高價(jià)值應(yīng)用匱乏:盡管具身智能在實(shí)驗(yàn)室中展現(xiàn)出諸多可能性,但真正能夠在經(jīng)濟(jì)效益和社會(huì)效益上產(chǎn)生積極影響的高價(jià)值應(yīng)用場(chǎng)景仍相對(duì)有限。如何找到真正的市場(chǎng)需求,實(shí)現(xiàn)規(guī)?;涞兀撬袕臉I(yè)企業(yè)面臨的共同難題。
工程化與量產(chǎn)一致性不足:機(jī)器人從實(shí)驗(yàn)室走向工廠、走向千家萬(wàn)戶,需要克服嚴(yán)苛的工程化挑戰(zhàn),包括硬件的穩(wěn)定性、魯棒性、成本控制,以及傳感器的一致性標(biāo)定、多機(jī)協(xié)同等,這些都直接影響著產(chǎn)品的可靠性和可復(fù)制性。

智元機(jī)器人聯(lián)合創(chuàng)始人兼具身業(yè)務(wù)部總裁姚卯青
這些挑戰(zhàn)相互交織,共同構(gòu)成了具身智能發(fā)展道路上的“攔路虎”。然而,挑戰(zhàn)也意味著機(jī)遇,正如智元機(jī)器人聯(lián)合創(chuàng)始人兼具身業(yè)務(wù)部總裁姚卯青所言,“智元機(jī)器人正通過其獨(dú)特的‘本體、數(shù)據(jù)、算法、應(yīng)用’飛輪,為破局之路提供了一條可借鑒的路徑。”
從數(shù)據(jù)荒漠到綠洲:智元如何“種樹造林”
智元機(jī)器人,這家成立于2023年2月的年輕公司,卻在短短兩年半內(nèi),憑借其“機(jī)器人+AI的融合,并以此依托本體打造通用具身智能產(chǎn)品和生態(tài)”的清晰定位,展現(xiàn)出了令人矚目的全棧能力。姚卯青介紹,“正是圍繞智元機(jī)器人如何驅(qū)動(dòng)“本體、數(shù)據(jù)、算法、應(yīng)用”的飛輪,實(shí)現(xiàn)了創(chuàng)新突破。”
正如大語(yǔ)言模型的核心是海量高質(zhì)量數(shù)據(jù),具身智能的崛起也同樣離不開“數(shù)據(jù)”這一基石。姚卯青形象地將具身智能的數(shù)據(jù)現(xiàn)狀比喻為“數(shù)據(jù)荒漠”,并強(qiáng)調(diào)智元機(jī)器人正在做“在沙漠里種樹”的開創(chuàng)性工作。
智元機(jī)器人邁出的第一步是,于2024年底向全球開源了AgiBot World數(shù)據(jù)集。這是一個(gè)百萬(wàn)條機(jī)器人數(shù)軌跡構(gòu)成的大規(guī)模、高質(zhì)量數(shù)據(jù)集。它擁有工業(yè)級(jí)數(shù)據(jù)質(zhì)量,數(shù)據(jù)經(jīng)過端云系統(tǒng)自動(dòng)化校驗(yàn)與人工逐幀審核,確保了工業(yè)級(jí)的質(zhì)量標(biāo)準(zhǔn),解決了過往學(xué)術(shù)數(shù)據(jù)集質(zhì)量參差不齊的問題。并以真實(shí)場(chǎng)景導(dǎo)向,數(shù)據(jù)采集涵蓋生活起居、服務(wù)業(yè)(如餐飲)、辦公環(huán)境、工廠等多種現(xiàn)實(shí)場(chǎng)景,而非簡(jiǎn)單的桌面級(jí)操作。
具備長(zhǎng)程任務(wù)設(shè)計(jì),任務(wù)由十幾步原子動(dòng)作組合而成,有助于訓(xùn)練機(jī)器人對(duì)模糊指令的精確拆解、理解、推理與規(guī)劃能力。數(shù)據(jù)集一推出就受到了社區(qū)廣泛關(guān)注: AgiBot World 在 GitHub和Hugging Face上均獲得了極高關(guān)注度,被英偉達(dá)、Google DeepMind、Physical Intelligence等國(guó)內(nèi)外頂尖團(tuán)隊(duì)廣泛使用,甚至有社區(qū)主動(dòng)開發(fā)了相關(guān)工具,形成了良好的生態(tài)反哺。
姚卯青特別提到,英偉達(dá)在今年3月的GTC大會(huì)上發(fā)布的具身基座模型GROOT N1和機(jī)器人推理模型Cosmos Reason,其80%的訓(xùn)練數(shù)據(jù)都來源于AgiBot World。這充分證明了AgiBot World在行業(yè)中的領(lǐng)先地位和影響力,它為具身智能領(lǐng)域提供了一片亟需的“綠洲”。
創(chuàng)新數(shù)據(jù)采集方式:對(duì)抗式與自主進(jìn)化式
擁有如此大規(guī)模、高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集,是由于智元機(jī)器人在數(shù)據(jù)采全生命周期上的創(chuàng)新。其引入了后訓(xùn)練數(shù)據(jù)集以及自主進(jìn)化式的數(shù)據(jù)采集的方式。在后訓(xùn)練階段,對(duì)抗式采集是在常規(guī)的示教操作過程中引入干擾。姚卯青生動(dòng)地將其比喻為:“讓工作人員‘搗亂’,使機(jī)器人在相同采集時(shí)間內(nèi)訪問到更多物理狀態(tài)和語(yǔ)言指令(如中途改變指令)。”這種方式取得了極好的效果:大幅提升了數(shù)據(jù)的信息密度,使得模型迭代和收斂速度提高數(shù)倍。

自主進(jìn)化式采集則是針對(duì)機(jī)器人自主執(zhí)行中遇到的長(zhǎng)尾失效場(chǎng)景,在失效瞬間進(jìn)行及時(shí)接管、回退,并以人為方式引導(dǎo)機(jī)器人順利完成任務(wù)。這種方式能將“難場(chǎng)景、高價(jià)值”的數(shù)據(jù)不斷補(bǔ)充回訓(xùn)練集,拓展了數(shù)據(jù)分布邊界,提升了機(jī)器人能力的上限,使模型可以持續(xù)進(jìn)化。這與模仿學(xué)習(xí)中的DAgger(Dataset Aggregation)概念異曲同工,旨在讓數(shù)據(jù)集能夠“自主進(jìn)化”。
這兩種數(shù)據(jù)采集方式的創(chuàng)新,展現(xiàn)了智元機(jī)器人對(duì)數(shù)據(jù)質(zhì)量和效率的極致追求。通過有策略地制造“沖突”和及時(shí)捕獲“異常”,能夠以更高效的方式獲取到機(jī)器人真正需要學(xué)習(xí)的、能夠提升其魯棒性和泛化能力的“真數(shù)據(jù)”。
算法:構(gòu)建具身智能“大腦”的核心引擎
有了高質(zhì)量的數(shù)據(jù)滋養(yǎng),算法作為具身智能的“大腦”,其創(chuàng)新至關(guān)重要。智元機(jī)器人在這方面也取得了顯著進(jìn)展,推出了具身智能基座模型GO-1,成功率提升了10%-30%,并積極探索世界模型方向。智元機(jī)器人于今年3月率先推出的具身智能基座模型GO-1(Genie Operator-1),在架構(gòu)上引入了創(chuàng)新元素。

智元提出了Vison-Language-Latent-Action(ViLLA)創(chuàng)新架構(gòu),由VLM基礎(chǔ)模型+MoE混合專家架構(gòu)構(gòu)成。第一個(gè)專家是隱式動(dòng)作專家,基于海量異構(gòu)數(shù)據(jù)(互聯(lián)網(wǎng)文本、圖文、異構(gòu)機(jī)器人本體數(shù)據(jù)、第一視角人類操作數(shù)據(jù)、仿真數(shù)據(jù)、真機(jī)數(shù)據(jù))進(jìn)行自監(jiān)督生成式學(xué)習(xí),形成一種在“隱式空間”中通用的動(dòng)作表達(dá),類似一種離散式的“動(dòng)作碼表”。這種方式能夠有效融合多種數(shù)據(jù)源,形成金字塔式的數(shù)據(jù)利用機(jī)制。
第二個(gè)專家顯式動(dòng)作專家,負(fù)責(zé)將通用動(dòng)作描述和環(huán)境表征,精準(zhǔn)地映射到特定機(jī)器人本體的控制上。這解決了機(jī)器人本體多樣性導(dǎo)致的控制復(fù)雜性問題。Go-1模型在真實(shí)場(chǎng)景(生活、零售、工業(yè))的評(píng)測(cè)中,成功率相比當(dāng)時(shí)海內(nèi)外開源模型提升了10%至30%。這表明其獨(dú)特的架構(gòu)設(shè)計(jì)在實(shí)際應(yīng)用中展現(xiàn)出了更優(yōu)越的性能。
為了驗(yàn)證物理AI也具備類似大語(yǔ)言模型的“數(shù)據(jù)量、計(jì)算量、模型參數(shù)提升,效果隨之提升”的 Scaling Law 規(guī)律。智元機(jī)器人也做了大量探索,并在近期發(fā)布了關(guān)于機(jī)器人Scaling Law的研究。他們發(fā)現(xiàn)了兩個(gè)重要的結(jié)論:
第一,數(shù)據(jù)絕對(duì)數(shù)量和數(shù)據(jù)多樣性具有同等重要性: 訓(xùn)練數(shù)據(jù)的質(zhì)量越高越好,數(shù)據(jù)的絕對(duì)數(shù)量越多越好,此外,數(shù)據(jù)的多樣性同樣也很重要。在訓(xùn)預(yù)訓(xùn)練階段引入多任務(wù)的數(shù)據(jù)混合在一起做預(yù)訓(xùn)練效果更好。
第二,單本體預(yù)訓(xùn)練的泛化能力:僅用智元G1機(jī)器人進(jìn)行預(yù)訓(xùn)練,可以在后訓(xùn)練階段僅用1-2小時(shí)(100-200條)的數(shù)據(jù),就在松林、方舟、Franka等從未在預(yù)訓(xùn)練階段見過的異構(gòu)機(jī)器人本體上實(shí)現(xiàn)高效的疊衣服任務(wù)。這比傳統(tǒng)需要數(shù)千小時(shí)疊衣服數(shù)據(jù)才能達(dá)到相同效果的方法,效率大幅提升。因此, AgiBot World這種單一本體預(yù)訓(xùn)練數(shù)據(jù),其后訓(xùn)練遷移效果反而優(yōu)于Google OXE(Open X-embodiment)等多本體預(yù)訓(xùn)練數(shù)據(jù)。姚卯青認(rèn)為這可能與智元模型設(shè)計(jì)中引入的自監(jiān)督生成式預(yù)訓(xùn)練,使其能脫離本體學(xué)習(xí)通用動(dòng)作表征有關(guān)。
這一發(fā)現(xiàn)顛覆了許多人認(rèn)為“一腦多行”必須在預(yù)訓(xùn)練階段引入更多本體類型的觀念,進(jìn)一步驗(yàn)證了數(shù)據(jù)場(chǎng)景的多樣性和數(shù)據(jù)質(zhì)量的可靠性才是機(jī)器人預(yù)訓(xùn)練最本質(zhì)的重要性。這意味著企業(yè)在初期投入時(shí),可以更聚焦于高質(zhì)量、多樣化的數(shù)據(jù)采集,而非盲目追求多本體的預(yù)訓(xùn)練。
世界模型:讓機(jī)器人學(xué)會(huì)“想象”與“推演”
正如理查德·費(fèi)曼所說“只要我不能創(chuàng)造的,就代表我還不理解。”充分詮釋了人類之所以能夠創(chuàng)造的核心原因。然而如何讓具身智能像人一樣,實(shí)現(xiàn)更精準(zhǔn)的環(huán)境感知、決策優(yōu)化及行為預(yù)測(cè),智元機(jī)器人也在積極探索世界模型這一前沿方向。
姚卯青認(rèn)為解決問題的核心思想是“生成理解一體化”。即對(duì)于機(jī)器人而言,這意味著它需要像人類一樣,在執(zhí)行任務(wù)前能在“腦海中”進(jìn)行清晰的規(guī)劃和完整的推演。

智元的世界模型框架命名為Genie Envisioner,它包含幾個(gè)關(guān)鍵組件:GE-Base、GE-Act(World Action Model)、GE-Bench以及GE-Sim。
GE-Base是基于AgiBot World及其他機(jī)器人數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)生成式模型。它強(qiáng)調(diào)物理真實(shí)性,不穿模、不違反物理規(guī)律、具備長(zhǎng)程性和多相機(jī)視角一致性的4D世界模型。
GE-Act (World Action Model)則根據(jù)輸入動(dòng)作序列,能夠像模擬器一樣精準(zhǔn)推演出后續(xù)事件、環(huán)境變化和自身變化。通過給定初始環(huán)境和指令,能夠規(guī)劃出精準(zhǔn)的動(dòng)作(關(guān)節(jié)控制或末端位置規(guī)劃),并部署到真機(jī)執(zhí)行。在智元自身機(jī)器人本體以及Franka、松林等異構(gòu)本體上,GE Acter在疊衣服、組裝紙盒等復(fù)雜任務(wù)中展現(xiàn)了優(yōu)異的遷移效果,并相比現(xiàn)有模型有顯著提升。尤其在動(dòng)態(tài)場(chǎng)景中,其長(zhǎng)時(shí)序推演能力帶來了更高的抓取定位精度。
GE-Bench 是針對(duì)機(jī)器人場(chǎng)景的世界模型,智元發(fā)布了圍繞動(dòng)作遵循度、時(shí)空一致性、語(yǔ)義合理性等方面的全維度評(píng)測(cè)標(biāo)準(zhǔn),并應(yīng)用于今年的IROS挑戰(zhàn)賽。
GE-Sim則是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的生成式仿真器,它能以動(dòng)作序列作為輸入,精準(zhǔn)渲染出后續(xù)將要發(fā)生的事情。智元通過對(duì)比真機(jī)執(zhí)行和GE-Sim推理,發(fā)現(xiàn)兩者效果高度一致,甚至量化成功率也極為接近。這意味著GE-Sim可以極大地加速機(jī)器人策略的迭代和模型研發(fā)周期,降低測(cè)試成本和風(fēng)險(xiǎn),是機(jī)器人研發(fā)領(lǐng)域的一大突破。
世界模型的探索,標(biāo)志著具身智能正從“模仿學(xué)習(xí)”邁向“理解世界”,未來將賦予機(jī)器人更強(qiáng)大的自主決策和應(yīng)變能力。
本體與應(yīng)用:飛輪的起點(diǎn)與終點(diǎn)
“飛輪”的轉(zhuǎn)動(dòng),離不開堅(jiān)實(shí)的本體支撐,也最終要落腳于實(shí)際應(yīng)用。姚卯青在實(shí)踐中也得出了不少“苦澀教訓(xùn)”。他認(rèn)為本體(硬件)的尤其重要,執(zhí)行器是根本。高控制頻率、低跟隨延時(shí)、高重復(fù)定位精度或絕對(duì)精度的執(zhí)行器是機(jī)器人能力的基礎(chǔ)。
采用多模態(tài)傳感器來來了一致性問題。視覺、激光雷達(dá)、觸覺、力覺、超聲波、毫米波等多種傳感器是未來趨勢(shì),但同時(shí)帶來了精準(zhǔn)調(diào)教、時(shí)間同步、空間標(biāo)定和量產(chǎn)一致性的巨大挑戰(zhàn)。
智能體的構(gòu)型上,人形是最大公約數(shù)。擬人本體可帶來更高的數(shù)據(jù)采集效率,并在為人類設(shè)計(jì)的作業(yè)環(huán)境中更高效。姚卯青以超市撿貨為例,闡述了類人靈活手腕的優(yōu)勢(shì)。
具身智能是“機(jī)器人+AI”而非“AI+機(jī)器人”。姚卯青認(rèn)為,絕不可能是有“一個(gè)大模型后就可以隨便安個(gè)本體能行的”。好的本體構(gòu)型及其高自由度難以被模型取代,模型必須圍繞本體設(shè)計(jì)才能進(jìn)化迭代。
復(fù)雜系統(tǒng)上的誤差累積尤為可怕。設(shè)計(jì)、生產(chǎn)、制造、軟件、數(shù)據(jù)、模型處理等鏈路上所有的誤差,最終都會(huì)逐級(jí)放大,成為巨大的枷鎖。追求量產(chǎn)和一致性,將誤差減到最小,是數(shù)據(jù)共享和規(guī)?;涞氐幕A(chǔ)。
這些“苦澀的教訓(xùn)”深刻揭示了具身智能研發(fā)的復(fù)雜性與系統(tǒng)性,希望以此警示行業(yè)不能盲目追求算法模型,而忽視了硬件本體的根基作用。
新一代產(chǎn)品:AgiBot G2即將面世
有了基于這些經(jīng)驗(yàn)教訓(xùn)和場(chǎng)景理解,智元機(jī)器人將在下半年推出新一代產(chǎn)品AgiBot G2。這款平臺(tái)被定義為“工業(yè)級(jí)的交互式具身智能作業(yè)的全球標(biāo)桿平臺(tái)”,將引入更靈巧的本體設(shè)計(jì)、更高標(biāo)準(zhǔn)的傳感器執(zhí)行器,并搭載英偉達(dá)Thor高算力控制器。這表明智元機(jī)器人正致力于打造軟硬件一體化、具備工業(yè)級(jí)穩(wěn)定性和可靠性的通用具身智能平臺(tái),為后續(xù)的大規(guī)模商業(yè)化落地奠定基礎(chǔ)。

其解決專用設(shè)備無(wú)法解決的、需要人工完成的精度高、力控強(qiáng)、泛化性要求高的操作場(chǎng)景。這意味著具身智能將成為傳統(tǒng)工業(yè)自動(dòng)化的有力補(bǔ)充,拓展自動(dòng)化邊界。
通過具身智能的通用機(jī)器人與現(xiàn)有專用自動(dòng)化設(shè)備的配合,解決柔性、雜亂、傳統(tǒng)視覺規(guī)劃難以完成的物體分揀難題,實(shí)現(xiàn)端到端執(zhí)行,甚至具備一定思考能力(如翻轉(zhuǎn)條碼)。這展示了通用機(jī)器人與專用設(shè)備協(xié)同的巨大潛力。在安檢崗點(diǎn)人力清零、電力通信機(jī)房巡檢場(chǎng)景下可替代人力,實(shí)現(xiàn)降本增效,同時(shí)具備對(duì)機(jī)柜操作等靈巧任務(wù)能力。
這些實(shí)際應(yīng)用場(chǎng)景的展示,讓人們看到了具身智能并非遙不可及的未來,而是正在逐步滲透到各行各業(yè),解決實(shí)際問題,創(chuàng)造真實(shí)價(jià)值。
智元機(jī)器人在具身智能領(lǐng)域的創(chuàng)新與經(jīng)驗(yàn)為我們勾勒出了一個(gè)清晰的發(fā)展路徑。從破解數(shù)據(jù)荒漠到構(gòu)建智能大腦,再到推動(dòng)本體進(jìn)化與賦能千行百業(yè),展示出具身智能從概念走向現(xiàn)實(shí)的可能。
(智能網(wǎng)原創(chuàng),轉(zhuǎn)載請(qǐng)注明出處)



