AI懂后空翻，但懂“水会洒”吗？北京这一模型专补“物理规律”课

发布时间：2025-10-19 09:30:20 | 浏览量：260

【导(dǎo)语(yǔ)】近(jìn)年(nián)来(lái)AI进(jìn)化(huà)迅(xùn)猛(měng)，但(dàn)要(yào)真(zhēn)正(zhèng)走(zǒu)进(jìn)物(wù)理(lǐ)世(shì)界(jiè)，具(jù)身(shēn)智(zhì)能(néng)面(miàn)临(lín)“物(wù)理(lǐ)鸿(hóng)沟(gōu)”。近(jìn)日(rì)北(běi)京(jīng)人(rén)形(xíng)机(jī)器(qì)人(rén)创(chuàng)新(xīn)中(zhōng)心(xīn)开(kāi)源(yuán)具(jù)身(shēn)世(shì)界(jiè)模(mó)型(xíng)WoW，它以高质量交互数据为基，通过独特构建思路与“自学方法”，实现从想象到执行的跨越，具备强大泛化能力，有望让机器人成为人类探索、建设世界的伙伴。

近年来，AI的进化让人目不暇接。从GPT系列“读懂语言”，到Sora系列“看世界”，我们一次次被AI惊人的能力所震撼。但一个更深刻的问题随之而来：如果AI要真正走进物理世界，成为能洗(xǐ)衣(yī)、做(zuò)饭(fàn)、装(zhuāng)配(pèi)的(de)机(jī)器(qì)人(rén)，它(tā)需(xū)要(yào)什(shén)么(me)？

波(bō)士(shì)顿(dùn)动(dòng)力(lì)的(de)机(jī)器(qì)人(rén)可(kě)以(yǐ)后(hòu)空(kōng)翻(fān)，北(běi)京(jīng)人(rén)形(xíng)机(jī)器(qì)人(rén)创(chuàng)新(xīn)中(zhōng)心(xīn)（以(yǐ)下(xià)简(jiǎn)称(chēng)“北(běi)京(jīng)人(rén)形(xíng)”）的(de)“具(jù)身(shēn)天(tiān)工(gōng)Ultra”也(yě)能(néng)跑(pǎo)完(wán)半(bàn)程(chéng)马(mǎ)拉(lā)松(sōng)。这(zhè)些(xiē)“体(tǐ)能(néng)”上(shàng)的(de)飞(fēi)跃(yuè)肉(ròu)眼(yǎn)可(kě)见(jiàn)。然(rán)而(ér)，让(ràng)机(jī)器(qì)人(rén)完(wán)成(chéng)一(yī)个(gè)后(hòu)空(kōng)翻(fān)很(hěn)难(nán)，但(dàn)让(ràng)它(tā)“理(lǐ)解(jiě)”面(miàn)前(qián)的(de)水(shuǐ)杯(bēi)为(wèi)什(shén)么(me)倒(dào)下(xià)后(hòu)水(shuǐ)会(huì)洒(sǎ)出(chū)来(lái)，或(huò)许(xǔ)更(gèng)难(nán)。这(zhè)，就(jiù)是(shì)具(jù)身(shēn)智(zhì)能(néng)面(miàn)临(lín)的“物理鸿沟”。

近日，“北京人形”开源了其全新的具身世界模型——WoW（World-Omniscient World Model）。“WoW就是为了让机器人‘理解物理世界’，并且给到算法触摸世界的双手。”北京人形相关技术人员说。

为什么“以假乱真”还不够？

Sora 2的出现，确实让AI成了个出色的“电影导演”，它拍出的“大片”逼真到让人惊叹。但在具身智能领域，一个机器人不能只当“观众”或“导演”，它还要当“物理学家”，因为“看起来真实”和“物理上正确”是两码事。

**机器人需要的，是对“时序(xù)一(yī)致(zhì)性(xìng)”和(hé)“物(wù)理(lǐ)因(yīn)果(guǒ)链(liàn)”的(de)统(tǒng)一(yī)。**比(bǐ)如(rú)一(yī)个(gè)东(dōng)西(xi)被(bèi)推(tuī)了(le)，它(tā)应(yīng)该(gāi)往(wǎng)哪(nǎ)儿(ér)倒(dào)；一(yī)个(gè)杯(bēi)子(zi)倒(dào)了(le)，水(shuǐ)必(bì)须(xū)洒(sǎ)出(chū)来(lái)。Sora 2或许能生成一个“看起来”很酷的机器人动作，但WoW要确保这个动作符合牛顿的规矩。

“相较于Sora 2，WoW具身世界模型在模拟机器人操作的时空一致性、物理推理能力表现更为出色。”北京人形相关技术人员表示。

在素材的对比测试中，无论是让模型模拟“依次抓取火方块、柔性方块、水方块”，还是“打开一本图书”，WoW生成的模拟结果在物理交互的准确性上，都显现出优势。

这种差异的背后，源于WoW不同的构建思路。它不是一个单纯的视频生成器，而是一个被设计为“物理引擎+想象系统”的DiT（Diffusion Transformer）世界生成基座模型。**它的核心任务是根据环境状态与历史帧，预测未来场景、推演物理演化，并还原动态的因果链。要实现这一点，数据是关键。**WoW的学习材料并非来自互联网上的海量视频，而是来自一个更专注的数据库。“北京人形”相关技术人员表示，他们从800万条海量的“机器人与物理世界交互轨迹”中，通过自建的数据优化精炼管线，筛选出了200万条高质量的训练集。这种“交互数据”而非“观察数据”，可能是WoW理解物理的关键。

此(cǐ)外，该团队还验证了模型规模与性能的“幂律增长”关系。他们训练了从1.3B（“B”代表十亿）、2B、7B到14B参数的全系列模型。研究结果证明：“随着模型规模提升，物理一致性与生成稳定性以及泛化性呈显著上升趋势。”

如何让模型“自己教自己”？

如果说庞大且高质量的交互数据是“教材”，那么WoW的核心创新之一，就是一套名为SOPHIA（Solver-Critic-Refiner）的“自学方法”。“北京人形”在其研究中称，这是“业内首次提出SOPHIA框架，让世界模型‘自己教自己’。”

这套机制，试图模拟人类“想象－验证－修正－再想象”的核心智能特征。它由两个关键部分组成，形成了一个“生成－批评－改进”的闭环优化过程。

但光会“想”还不行，机器人必须能“做”。WoW系统的另一大支柱，是FM-IDM逆动力学模型（Flow-Mask Inverse Dynamics）。这正是那双“触摸世界的双手”。**它的作用，是将在“想象”中生成的视频翻译成真实世界中可执行的机器人指令。**通过给定连续两帧预测视频，FM-IDM能够计算出机器人末端执行器的动作变化量，类似AI在脑子里想好了“手从A点移动到B点”的画面，FM-IDM就能反推出“机械臂关节需要旋转X度、Y度”的(de)具(jù)体(tǐ)指(zhǐ)令(lìng)。技(jì)术(shù)人(rén)员(yuán)解(jiě)释(shì)说(shuō)，“这(zhè)标(biāo)志(zhì)着(zhe)真(zhēn)正(zhèng)实(shí)现(xiàn)从(cóng)生(shēng)成(chéng)到(dào)执(zhí)行(xíng)的(de)跨(kuà)越(yuè)。”

开(kāi)源(yuán)一(yī)个(gè)“具(jù)身(shēn)大(dà)脑(nǎo)”意(yì)味(wèi)着(zhe)什(shén)么(me)？

一(yī)个(gè)模(mó)型是(shì)否(fǒu)真(zhēn)正(zhèng)理(lǐ)解(jiě)了(le)规(guī)律(lǜ)，最(zuì)好(hǎo)的(de)检(jiǎn)验(yàn)标(biāo)准(zhǔn)是(shì)“泛(fàn)化(huà)能(néng)力(lì)”。“WoW不(bù)是(shì)在(zài)记(jì)忆(yì)训(xun)练(liàn)场(chǎng)景(jǐng)，而(ér)是(shì)在(zài)学(xué)习(xí)‘物(wù)理(lǐ)规(guī)律(lǜ)的(de)抽(chōu)象(xiàng)本(běn)质(zhì)’。”“北(běi)京(jīng)人(rén)形(xíng)”在(zài)报(bào)告(gào)中(zhōng)强(qiáng)调(diào)，模(mó)型(xíng)具(jù)备(bèi)“跨(kuà)机(jī)器(qì)人(rén)形态泛化、任务泛化、场景泛化全方位能力”。

“北(běi)京(jīng)人(rén)形(xíng)”相(xiāng)关技(jì)术(shù)人(rén)员(yuán)表(biǎo)示(shì)，WoW的(de)泛(fàn)化(huà)能(néng)力(lì)体(tǐ)现(xiàn)在(zài)多(duō)个(gè)层(céng)面(miàn)。**在(zài)“域内(nèi)”，它(tā)可(kě)以(yǐ)生(shēng)成(chéng)长程、复杂的任务视频，例如“打开洗碗机”，乃至“依次按下红色按钮，收拾餐具，按下绿色开关”这样的多步任务。在“域外”，它能将其学到的知识，应用到未曾见过的机器人本体和场景上。**例如，生成“具身天工2.0”机器人（未用于训练）执行“把橙子放进盘子里”“倒酒”等任务的视频。

“我们希望WoW能成为世界模型的研究基础设施。”“北京人形”技术人员展望道。在他们看来，WoW一方面可以实现“自我造数”（AI拥有“自我造数”能力），解决数据稀缺问题；另一方面，它打通了“从视觉‘想象’中反推真实可执行的动作指令”的通路，使机器人在抓取、装配等任务上的自主能力有望大幅提升。

“WoW通过系统性结合完成了‘想象世界→理解物理→生成视频→执行动作→再学习’的逻辑闭环。”“北京人形”技术人员说。此前，该中心已经展示了其在“能跑”和“好用”方面的实力，而WoW的开源，则补全了“大脑”层面的关键拼图。通过此次研究，也相信北京人形机器人将持续开源开放，助力行业打造最能跑最好用的具身智能机器人。或许在不远的将来，AI不再只是“模拟人”，而是与人类共同探索世界、建设世界的伙伴。

撰文：记者段大卫

编辑：段大卫

————THE END

🔰 - 物联网与车联网领域企业级服务平台

AI懂后空翻，但懂“水会洒”吗？北京这一模型专补“物理规律”课

相关推荐