欢迎进入泰安市科技馆网站! 今天是:

让AI像人一样“脑补”:世界模型正在改变智能世界

发布时间:[2026-05-18 10:20:10]    浏览量:5次

站在桌边看到一杯水放在桌沿,我们不必真的推倒它,就能判断它可能会摔碎。这种与生俱来的“脑补”能力,对人类而言习以为常,却是人工智能迈向更高层次智能的关键挑战。世界模型正是让AI具备类似能力的技术:它能观察环境、预测未来状态,并据此提前做出合理决策,从而让机器在行动前“先想一想”。

简单来说,世界模型可以理解为AI用于模拟环境状态变化的系统。它不仅要识别眼前发生了什么,还要根据当前状态预测下一秒可能发生什么,从而提前做出更合理的决策。例如,自动驾驶汽车看到前方车辆减速、旁边车辆靠近车道线,就不仅仅是“看见”这些画面,还要推测对方是否可能急刹或变道。

过去很多AI系统更像“训练有素的反应机器”,主要依赖输入和输出之间的对应关系,只能有限预判;而世界模型通过更深层的内部推演,结合物理规律和因果逻辑,让系统在行动前先模拟多种可能结果,从而选择风险更小、效率更高的方案。这也是它与自动驾驶、机器人、视频生成和具身智能密切相关的原因。

世界模型的价值已渗透到多个核心场景。在自动驾驶领域,英国自动驾驶公司Wayve的GAIA-1和特斯拉FSD都在构建世界模型,使汽车能够预测其他车辆的变道轨迹和动作,从而提前做出反应;在机器人操作上,DeepMind的Dreamer系列(如Dreamer V2)可以让机器人在现实中操作几分钟,再在内部模拟多次练习,从而提升学习效率;视频生成方面,Sora和字节Seedance 2.0也属于视觉世界模型,能够根据当前帧预测未来帧,用模拟方式生成连续逼真的画面。

2026年4月,中国厂商在世界模型方向推出了多款产品,显示出在工程化和应用场景上的集中推进。4月16日,阿里云发布HappyOyster,定位为“世界模拟器”,支持1分钟连续实时位移和3分钟以上高清画面生成,与谷歌Genie 3同属“生成式视频派”,在交互时长上有所改进;同日,腾讯开源混元3D世界模型2.0,生成的3D资产可直接导出二次编辑,适配游戏开发等B端场景。4月17日,群核科技登陆港交所,其相关产品在空间智能和工程应用上展示了商业落地潜力。

图源:HappyOyster

目前业内可以大致观察出三种主要发展方向:生成式视频、抽象预测和空间智能。这一划分主要基于公开产品与研究论文的技术路线整理,并非官方统一标准。

生成式视频派以谷歌Genie 3、阿里HappyOyster为代表,通过视频生成模拟世界演化,画面逼真、商业化路径清晰,但对物理规律理解仍停留在表面;抽象预测派由Meta的V-JEPA 2主导,以杨立昆为代表的一些研究者对这一技术路线持肯定态度,认为其在规划和决策任务中有潜力,但商业化场景有限;空间智能派以腾讯HY-World 2.0、群核科技为核心,聚焦3D空间理解,输出可编辑3D资产,工程化落地效率较高。

字节跳动的Seedance 2.0,也是当前视频类世界模型中较受关注的代表。据其2026年4月发布的技术论文,这款模型采用多模态联合生成架构,支持文本、图像、音频、视频四类输入,在文生视频、图生视频、参考生视频等任务中表现突出。论文实验评测显示,在5分制主观评测中,其运动质量和音画同步均达3.75分,领先对比模型至少0.65分;物理建模能力相比前代提升超过1.5分,一定程度缓解了视频生成中穿模、流体异常等问题。它已接入豆包、火山引擎等产品和平台,在商业广告、游戏动画等场景中具备应用价值,可降低部分内容制作成本。

图源:Seedance 2.0技术论文

不过,世界模型的发展仍面临诸多挑战。目前多数模型对物理规律理解尚不深入,例如Sora生成的视频可能出现穿模,Seedance 2.0存在轻微形变、音频失真;3D理解仍处于早期,多数模型仍停留在二维像素空间,难以完全模拟三维世界;同时,模型层次化推理能力和持续更新能力也还不及人类。

在技术路线方面,学界和产业界提出不同关注重点。以杨立昆为代表的一些研究者强调,光靠语言模型难以通向更高层次智能,必须结合多模态建立对物理世界理解,其JEPA架构探索抽象预测能力;NVIDIA的Jim Fan团队认为,通用机器人的底层需要基础世界模型以支持连续控制;Dreamer系列研究则更务实,关注在连续控制任务中提升效率。三条路线核心分歧在于:生成式视频方向重视视觉逼真度和内容产出,抽象预测方向强调因果理解和规划能力,空间智能方向则注重3D场景理解与工程落地能力。

值得关注的是,世界模型正在成为生成式AI和决策式AI的交汇点。过去,生成式AI主要关注内容创作,强化学习主要关注决策执行,二者长期应用场景各自独立;而世界模型可用生成能力构建仿真环境,再在其中训练决策,使视频生成不仅用于内容创作,也辅助机器人和智能体学习。

目前,中国厂商在工程化能力和应用场景方面取得显著进展。例如,阿里的“云+模型”、腾讯开源生态、群核科技的垂直场景应用及字节的产品落地,展现多元化竞争格局。但需要认识到,核心底层架构创新仍以美国为主,中国厂商在核心技术上仍需持续突破,才能在长期竞争中占据主动。

图源:钛媒体App

从实验室技术概念到自动驾驶、机器人、内容创作和空间设计的产业实践,世界模型正让AI从“看到什么就反应什么”推向“先预测、再决策、后行动”的阶段。它未必在短期直接带来通用人工智能,但确实让AI更接近人类理解世界的方式。未来,谁能让模型更准确理解物理规律、更稳定模拟复杂环境、更高效服务实际应用,谁就更可能在这条赛道中获得优势。

作者:重庆理工大学 汪芷丞

来源:科普中国



地址:山东省泰安市东岳大街481-1号

鲁ICP备10210343号-4

电话:0538-8417924

传真:0538-8413780

网址:www.tastm.cn

邮箱1:takjg@126.com