2026年，“AI新贵们”集体押注世界模型

发布时间：2026-06-23 作者：产业家阅读：356 字数：5560

（本文作者为产业家，钛媒体经授权发布）

文 | 产业家

下一代AI公司未必只诞生在拥有最大参数、最多论文和最强算力的地方，也可能诞生在真实场景最密集、产业反馈最频繁、工程迭代最快的地方。因为AI真正改变世界的方式，不是停留在屏幕里回答世界，而是进入产业现场，理解世界、模拟世界、行动于世界，并最终提升世界的运行效率。

AI似乎正在集体“逃离”纯文本，全面挺进由重力、动量、几何空间构成的真实物理世界。

1月8日，北京智源研究院发布《2026十大AI技术趋势》，将世界模型列为通向AGI的重要共识方向，并提出从Next Token Prediction（预测下一个词）向Next State Prediction（预测世界的下一个状态）的范式迁移。

随后几个月里，产业界的动作密集得几乎令人目不暇接。

首先是原本涌向具身智能的大额资金，开始对准有“世界模型”标签的企业。

3月份，极佳视界完成约15亿元融资，同月，极佳视界的GigaWorld-1在WorldArena评测中登顶，成为全球唯一综合得分突破60分的具身世界模型，成绩超过谷歌、英伟达和阿里。从今年3月份到如今，吸金35亿，被市场称为“国内首个世界模型独角兽”；

除此之外，智平方（AI² Robotics）B 轮系列融资超 10 亿元，估值过百亿；具身基座公司千寻智能，2026 年开年三个月内完成四轮融资、吸金 45 亿元；做世界模型 Fast-WAM 的星海图，继 2 月近 10 亿元 B 轮后，4 月再拿近 20 亿元 B+ 轮；

二级市场也表现出类似的“偏爱”。

4月17日，“物理 AI”新股群核科技，作为全球首家以空间智能为核心技术底座的上市公司，上市即获得市场，上市首日大涨 144%；与此同时，生数科技两个月累计融资26亿元，投后估值超过120亿元，并传出最快于2026年启动港股IPO的消息。

值得注意的是，这俩家企业的技术路线恰是通往世界模型的路径之一。

各个领域的玩家们也蠢蠢欲动。4月16日，腾讯和阿里在同一天各自发布了一款世界模型产品。腾讯拿出的是开源的混元 3D 世界模型 2.0（HY-World 2.0），阿里端出的是主打实时交互的 HappyOyster。

车企的动作更加激进。吉利发布WAM世界行为模型，试图统一智驾、智能座舱和底盘控制；华为乾崑公开拒绝 VLA，坚持其 WA（World Action）路线，车 BU 负责人直言"VLA 看着聪明，但不是自动驾驶的真正解"；Momenta 则把宝押在世界模型上。

机器人领域，英伟达Cosmos、DreamGen、DreamZero相继推出，智元发布GE-2，星海图也开始布局世界模型基础设施。

海外同样热火朝天。

图灵奖得主Yann LeCun，在执掌Meta AI多年后，于不久前选择自立门户，创立了专注于世界模型的 AMI Labs，并在2026年3月一举斩获了创纪录的10.3亿美元巨额种子轮融资。并放出话，“现有的LLM路线彻底错了，单纯靠预测文本，AI永远无法触及人类级别的智能。我们需要能理解物理现实的模型。”

李飞飞创立的World Labs于2月完成10亿美元融资，累计融资额达到12.3亿美元，估值约50亿美元，首款商业产品Marble正式上线；就在最近，OpenAI也正式宣布进入机器人赛道。

一二级市场的资金、顶尖的科学家以及跨界巨头，正以较高的密度向一个词低头，那就是世界模型。

而世界模型，又是为什么突然成为所有人的必争之地？

一、Scaling Law 放慢，行业开始寻找语言之外的答案

AI 巨头的新共识：只靠文本似乎到不了 AGI。

过去几年，大语言模型遵循着一个简单而有效的逻辑，那就是预测下一个词。这种机制带来了惊人的能力跃迁。模型不断刷新认知能力边界，也让整个行业相信，只要继续扩大参数、增加数据、堆积算力，AGI终将到来。

但2026年，一个越来越难以回避的问题出现了。那就是Scaling Law开始失灵。

以OpenAI为例，其在GPT-4.5系统卡中称GPT-4.5是“largest and most knowledgeable model yet”，且“scales pre-training further”；但在SWE-bench Verified上，GPT-4.5 post-mitigation只有38%，只比GPT-4o高2%–7%，并且比Deep Research低30%。

这意味着，在其模型迭代中，“更大预训练”仍有提升，但已不是最有效的能力来源。

与此同时，数据墙开始出现。互联网高质量文本数据几乎被采集殆尽。Epoch AI估计，可用于AI训练的高质量、重复调整后的人类公共文本约300万亿token；若趋势继续，语言模型将在2026—2032年之间完全用尽这部分存量。

而即便拥有全世界最大的语料库，其实也无法让AI真正理解什么是重力、摩擦力、惯性和空间关系。

原因并不复杂，语料库记录的是人类如何描述世界，而不是物体如何在世界中运动。物理常识在文本中天然稀缺，因为人们通常不会反复写下“杯子会掉下去”“轮子会滚动”“湿地会打滑”这样的常识；这导致大型预训练模型在这类物理常识题上能力较低。

多模态模型也没有彻底解决这个问题。

BLINK基准显示，人类几乎一眼就能完成的深度、空间对应、多视角推理任务，GPT-4V平均只有51.26%，Gemini只有45.72%，离随机猜测并不远。

PhysBench进一步把测试扩展到摩擦、密度、张力、弹性、运动、碰撞、投掷和流体等真实物理维度；在75个视觉语言模型、10002条测试样本上，研究者发现物理理解并不会随着模型大小、训练数据量或视频帧数稳定提升。换言之，AI即使读遍互联网上关于“重力”的文字，仍可能不知道一个球为什么不能凭空消失、为什么物体不能穿墙、为什么运动必须连续。

这种局限性，最终体现为企业落地AI时最头疼的问题，那就是幻觉。

一个事实是，在金融、医疗、工业等高容错成本场景中，LLM依然无法建立稳定可靠的物理因果推理能力。这也是为什么许多企业级应用始终停留在辅助层，而无法成为核心决策系统的原因。

很明显，从“语义理解”到“物理推理”之间，始终存在一道鸿沟。而这道鸿沟已经成为AI落地产业的第一拦路虎。

可以说这是世界模型被关注的底层原因，而更为直接的原因，其实是具身智能的发展已经到了瓶颈期。

作为AI进入真实世界，通往AGI的载体，该领域在近两年可谓是香饽饽的存在，大量资金涌入，各个领域的玩家下场布局。这一局面下，市场和资本根本不会给他喘息的机会，其急需破局，寻找新的技术突破口。

而世界模型，给出了全新的解法，或者说一个新的技术叙事，让企业继续讲好这个故事。

世界模型本质是一个“可学习的物理模拟器和渲染引擎”。AI不需要依靠文字，而是通过视觉、3D运动、甚至触觉的“视觉思维链”，去预测如果采取行动A，物理环境会发生什么改变B。

可以说，LLM给AI带来了人类积攒了几千年的语言、逻辑与文明成果；而世界模型，则赋予了AI一双能够看懂时空、感受重力、理解现实的眼睛。是让AI这门技术真正转化为生产力的必经之路。

二、不同阵营的物理 AI 卡位战，抢占下一份生产力入口

如果说上一阶段的大模型竞争比的是文本的理解与生成，那么世界模型这一轮，竞争的核心已经演变为如何将AI带进一个可计算、可交互、可训练的物理世界。当前产业界对世界模型的集体押注，其实是各行各业在迫切寻找AI的下一份生产力入口。

然而必须承认，世界模型远未成熟，它既非统一的技术路线，也非短期内能替代大语言模型的万灵药，甚至连定义都没统一思想。

比如在最近的智源大会上，智源研究院院长王仲远提出以语言为中心(LLM/VLM/VLA)、以像素为中心(视频生成,如Sora的误用源头)、以三维结构为中心(3D重建)、以视觉表征为轴心的世界模型四大分类；

李飞飞及其World Labs团队给出的分类方式则不同，在其发布文章中，提出了渲染器、模拟器、规划器三类世界模型功能框架。

但即使如此，业内仍是处在一种由不同行业从各自优势场景出发、向“理解物理世界”靠拢的产业初试阶段。在这场由浅入深的迁徙中，不同背景的玩家正凭借各自的产业逻辑，欲想敲开世界模型的大门。

最先动起来的是视频生成派。

这一派的底气来自于手握全行业最强的视频生成引擎。生数科技、阿里的 HappyOyster、快手可灵、字节 Seedance 以及海外的 Sora、Runway 构成了第一支力量。这种趋势离不开AR-DiT 等实时交互技术的突破。过去，这类模型只能生成不可交互的“电影”，而随着 AR-DiT 等实时交互技术的突破，视频模型开始转向动作驱动的逐帧生成，让“文生视频”往“可驱动的视频世界”抬了一步。

不过，这一路线的隐患在于，它学到的是画面连贯而非物理为真，背后缺乏真实的三维结构，时间一长极易穿帮。

空间智能玩家则针锋相对，其主张“先重建，再理解”。

代表力量是李飞飞的 World Labs 和国内的群核科技。腾讯混元也凭借海量游戏数据切入这条路，将开放世界地图的建模周期从数月压到十几分钟，直接冲击游戏工业。而群核科技则作为底层的“卖水人”，从十余年家装软件中沉淀出数亿个物理正确的真实设计数据，为具身智能公司供给虚拟训练场。

真正对世界模型表现出极度需求的，是具身智能领域。

要知道，机器人最大的痛点是真实数据匮乏，而世界模型恰好能让机器人在“想象”里反复演练技能，再用少量真实数据微调。这也解释了为何大额资金开始疯狂对准有“世界模型”标签的企业。

不过，这也是路线分歧最深的一支。比如极佳视界主张在虚拟空间里通过想象学技能；智元和星海图致力于补齐仿真平台等基础设施；AMI Labs 试图绕开像素、在抽象隐空间里预测未来；而千寻智能则明确反其道而行，放弃高能耗的逐帧预测，用更少参数做轻量化预训练。目前，各条路线正走向技术融合，世界模型正在复制大语言模型的剧本，充当起具身智能的“预训练”阶段。

与机器人的长周期相比，车企与智驾厂商则把世界模型直接开上了路，成为了离钱最近的阵营。

智驾是最早握有海量真实路测数据和明确付费场景的领域。加上自动驾驶仿真已经是世界模型最成熟、且已落地的应用，用其批量合成罕见的危险场景做测试，效率比纯堆路测高出一个数量级。

站在这个角度来看，视频派从像素进、空间派从几何进、具身派从动作进、车企从场景进，本质上是不同行业根据自身场景向物理AI收敛的几个必然阶梯。短期看创意设计最快变现，中期看智能驾驶拉开差距，长期看，世界模型的终局绝非某一个单一的产品，而是未来连接数据、仿真与行动的物理AI基础设施。它是AI从数字世界走向物理世界时必须补上的关键中间层。

而当这些产业入口被逐一跑通，市场的竞争势必会向产业链深处沉降。

三、下一代 AI 公司，理解世界、模拟世界、行动于世界

世界模型之所以重要，不只是因为它代表了一条新的模型路线，更因为它正在把AI的战场从屏幕、文本和软件界面，推向汽车、机器人、工厂、仓库、建筑、城市和家庭。

大语言模型可以先在云端完成训练，再通过API、办公软件、搜索、客服、代码工具等入口扩散。它的主要战场是数字世界。但世界模型的目标不是回答问题，而是预测、生成、干预和改造物理世界。它天然要进入汽车、机器人、工厂、仓库、建筑、游戏引擎、空间设计软件和XR设备。

这意味着，世界模型的竞争不会停留在谁的模型参数更大、谁的视频更逼真、谁的榜单分数更高。真正的竞争会发生在产业链深处，比如谁拥有高质量物理数据，谁掌握仿真和评测平台，谁能连接真实设备，谁能在真实场景中形成反馈闭环。

换句话说，世界模型是AI进入物理世界时必须重建的一套基础设施。

过去的大模型产业栈相对清晰，底层是芯片和云，中间是基础模型，上层是应用和Agent。但世界模型把这条链条拉长了。未来物理AI的技术栈，可能会变成物理数据采集、数据清洗与合成、世界表示层、世界基础模型层、仿真与评测层、行动模型层、部署反馈层。

这条链条一旦形成，世界模型就不再只是“生成内容的AI”，而会成为物理AI时代的操作系统。它往下连接芯片、传感器和机器人本体，往上连接Agent、行业软件和企业业务系统；它一边接收真实世界数据，一边生成可训练、可验证、可部署的虚拟世界。它的位置，类似于大语言模型时代的基础模型，但产业嵌入程度会更深，因为它必须和物理设备、工程流程、行业标准、安全验证绑定在一起。

因此，世界模型的真正意义，其实是让AI第一次具备系统性进入物理产业的可能。

这也让中国公司在这一轮竞争中更值得关注。

在物理AI时代，竞争变量会发生变化。模型能力仍然重要，但场景密度、工程能力、供应链协同、本体制造、行业交付和客户反馈同样重要。

这恰恰是中国公司的优势区间。中国拥有全球最完整的制造业体系、最复杂的城市交通场景、增长最快的机器人产业链、庞大的新能源车市场，以及大量真实空间和工业场景。这些都是世界模型最需要的物理数据来源和落地土壤。

换句话说，世界模型的竞争不会只发生在实验室和云端，也会发生在车间、道路、仓库、门店、住宅、工地和城市基础设施中。谁能更快把模型接入这些场景，谁能更快获得真实反馈，谁就有可能建立更强的工程闭环和数据飞轮。

这意味着，下一代AI公司未必只诞生在拥有最大参数、最多论文和最强算力的地方，也可能诞生在真实场景最密集、产业反馈最频繁、工程迭代最快的地方。因为AI真正改变世界的方式，不是停留在屏幕里回答世界，而是进入产业现场，理解世界、模拟世界、行动于世界，并最终提升世界的运行效率。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

本文为本站原创内容，如需转载请注明出处。

本文永久地址：https://m.ace6239.store/article/14400.html

文章观点仅供学习交流参考。