2026年3月24日,OpenAI 在一次内部员工会议上宣布了一个让外界震惊的决定:关掉 Sora。
视频生成 App,关。API,关。ChatGPT 里的视频功能,关。四个月前刚和迪士尼签的10亿美元合作协议,随之作废。
Sora 峰值用户曾达到100万,日运营成本约100万美元。关掉一个花了两年半做的产品,在商业逻辑上几乎说不通。
但如果你看过 OpenAI 在同一时间段做的另一件事,这个决定的逻辑就清晰了:
旧金山一栋大楼里,和财务团队同处一个楼层,一间秘密机器人实验室已经运转了一年多。100多名数据采集员实行三班倒制度,用一款叫 GELLO 的3D打印控制器远程操控 Franka 机械臂——烤面包、叠衣服、把橡皮鸭放进杯子里。
这个实验室2025年2月启动,一年之内规模扩大了四倍,第二间实验室正在加州里士满筹建。
Sora 团队的华人研究员王若宸在朋友圈里说出了实情:Sora 团队的终极目标,一直是通用机器人。 视频生成和具身智能的研究路线越来越分化,难以兼顾,关停 Sora 业务线只是组织架构调整,研究团队一个没动。
所有人都在问”OpenAI 为什么关掉 Sora”,但很少有人注意到:关掉 Sora 不是撤退,是梭哈。
OpenAI 不是”进军”机器人,是回归。
2018年的 OpenAI,核心业务就是强化学习和机器人。那只靠强化学习学会单手还原魔方的机械手,是当时最出圈的成果之一。AI 智能体在虚拟环境里玩”躲猫猫”,进化出了人类设计者都没预料到的策略——用身体挡住门、搭坡道冲上去。这些成果曾在 AI 圈引发广泛讨论。
但2020年,OpenAI 叫停了整个机器人团队。
当时对外说的是”将团队重心重新调整至其他项目”。但真正的原因只有一个:没有数据。
大语言模型可以从互联网上爬取万亿 token 的文本数据来训练——维基百科、论文、代码库、社交媒体,所有数据都是公开的、可规模化的。但机器人需要的物理世界交互数据,没有现成的来源。你不能从网页里学会叠衣服,你只能用手叠一千次,然后让机器人模仿。
这个数据鸿沟在当时看起来是不可逾越的。OpenAI 选择了战略转向:放弃物理世界,把全部赌注压在语言模型上。
ChatGPT 的爆发式增长证明了这是个正确的选择。
但有意思的是,正是 ChatGPT 的成功,为 OpenAI 回归机器人铺了路。
GPT 系列模型在过去两年对物理世界的理解能力发生了质变。不是通过在真实环境中反复训练,而是通过海量文本和图像的学习——模型在训练中内化了重力、物体遮挡、工具使用、因果关系这些物理世界的底层规则。这种理解不完美,但在一个关键维度上足够了:它让自然语言变成了控制机器人的接口。
你不需要为每个任务写专门的控制代码,只需要用人类语言描述任务。这正是 OpenAI 最有优势的地方——没有哪家公司比 OpenAI 更擅长”让 AI 理解人类指令”。
Sora 的价值也在这条链路上。视频生成本身被关停了,但 Sora 团队在视频模型中积累的”世界模拟”能力——理解物体运动轨迹、物理交互时序、场景一致性——恰恰是机器人需要的基础能力。
关掉 Sora 的表面原因是”算力需求增长需要做取舍”。但深层逻辑是:视频生成只是通往世界模型的中间站,世界模型才是通往机器人的门票。 Sora 的任务完成了。
OpenAI 不是第一个来做机器人的。甚至可能是最后一个入场的主要玩家。
Figure AI,2022年成立。2024年初拿到6.75亿美元融资,估值26亿美元,投资方包括贝索斯、英伟达、微软和 OpenAI 自己。Figure 01 是最早展示能听懂人类指令并执行对话的人形机器人之一。但2025年2月,Figure CEO Brett Adcock 宣布终止与 OpenAI 的合作。
1X Technologies,挪威公司。OpenAI 在2023年领投了其2350万美元融资。2026年 CES 上,1X 展示了家务人形机器人 NEO,售价2万美元,计划2026年开始向美国市场交付。NEO 的定位很清晰:从实验室走向消费市场的第一步。
Physical Intelligence(π),更纯粹的”软件大脑”路线。不做硬件,只做通用的机器人控制模型。2025年与智元机器人达成战略合作,估值据报在2026年4月翻倍至约110亿美元。
Tesla 的 Optimus 一直在用动作捕捉服加 VR 头显训练全尺寸人形机器人,走的是马斯克标志性的”高调 demo”路线。
国内也没有闲着。理想汽车2026年5月一口气新增了具身工程、具身交互、具身行为三大部门,内部代号 Nexus 的人形机器人团队已经秘密运作。
赛道这么拥挤,OpenAI 的差异化在哪?
第一,训练方法论完全不同。
Figure 和 Tesla 用的是”动作捕捉”路线——人穿上动作捕捉服,用 VR 头显操控全尺寸人形机器人,记录全身动作数据。这种方式的优点是直观,演示效果炫酷。缺点也明显:成本极高,一个人一次只能操控一台机器人,数据采集效率有天花板。
OpenAI 选了一条更低调但更具扩展性的路:用低成本的 GELLO 控制器操控桌面级 Franka 机械臂,专注于基础动作的规模化数据采集。GELLO 控制器是3D打印的,一个操作员对应一台机械臂,动作直接映射,不需要动作捕捉服那种复杂的全身追踪系统。
这种路线来自加州大学伯克利分校2023年的一项研究——提出低成本、可规模化的远程操控数据采集方案。论文的一位作者已在2024年8月加入 OpenAI,负责”构建机器人智能中枢”。
两种路线不只是技术选择,是战略选择的差异。Figure 和 Tesla 要的是”看起来很厉害的演示”,用来融资、吸引眼球、建立品牌。OpenAI 要的是”数据飞轮能转起来”——先积累足够多的基础动作数据,再让模型从中学习通用策略,最终实现自主控制。
这和 OpenAI 训练 ChatGPT 的思路如出一辙:先有海量数据,再有大模型,然后涌现出通用能力。只不过这次的数据不是文本,是物理动作。
第二,软件优势反哺硬件。
Figure 需要自己训练 AI 模型。1X 依赖 OpenAI 的多模态能力。但 Physical Intelligence 的通用控制模型,理论上可以适配任何机器人硬件——物理硬件正在被商品化。
如果走”通用模型+合作伙伴硬件”的路线,竞争就像当年的 Android 和 iOS。但 OpenAI 选择自己造硬件、自己组团队,说明它判断:未来的机器人不是”一个模型适配所有硬件”,而是”硬件和软件必须协同设计”。
就像苹果不做搜索引擎但做 iPhone——只有控制硬件,才能保证软件体验的完整性。
第三,隐性的数据飞轮。
OpenAI 最大的隐藏优势不是技术,是 ChatGPT 的用户数据。数亿用户的日常对话中,包含巨量的物理世界描述——“帮我查一下怎么修水龙头”“这个螺丝拧不进去”“杯子从桌上掉下来了”。
这些自然语言中的物理世界知识,可以转化为机器人控制的数据来源。这不是 Figure 或 Physical Intelligence 能获取的。这是独属于 OpenAI 的护城河。
OpenAI 的机器人团队正在重金招聘 SLAM(同步定位与地图构建)专家,开出270万到320万人民币的底薪。
SLAM 在”端到端”时代被不少人认为过时了。既然 AI 可以直接从感知到动作端到端学习,还要什么传统几何感知?
但 OpenAI 在端到端时代重金招 SLAM,说明了一个清醒的判断:纯端到端在物理世界不够用。
大语言模型里端到端有效,因为语言和知识的表示相对低维。但物理世界是高维的、连续的、实时的。机器人需要精确知道”我的手在三维空间中的哪个坐标”“桌子边缘的确切位置”“这个物体的质量分布”——这些需要精确的数值计算,不能靠概率分布模糊过去。
这不是技术倒退,是务实。人脑处理语言可以模糊,但伸手拿一杯热水的时候,手的位置误差不能超过几厘米。
硬件+ML 协同设计的真正含义是:不是让 ML 适应现有硬件,也不是让硬件适应现有 ML,而是从头开始,让硬件和 AI 共同进化。
传感器的设计不再以人类视觉为标准,而是以模型的输入格式为标准——什么样的摄像头分辨率和帧率能让模型做出最优决策?关节电机的响应特性应该和模型的控制频率如何匹配?这些问题的答案,只有在硬件和模型共同迭代中才能找到。
OpenAI 收购 Jony Ive 创办的 AI 硬件公司 io(作价65亿美元),计划推出 AI 计算设备,也从侧面印证了这个战略方向——OpenAI 正在从一家”软件公司”变成”软硬件一体化公司”。
这个转变的影响不只局限于机器人领域。它意味着 AI 行业的竞争维度正在升级:不再是模型参数量的比拼,而是”谁能把 AI 嵌入物理世界”的比拼。芯片需要为实时推理优化,传感器需要为 ML 重新设计,机器人的形态需要为 AI 的控制能力量身打造。
OpenAI 的机器人之路,最早可以追溯到2018年。那时候它还是一家非营利研究机构,一群人在虚拟环境里看着 AI 智能体玩躲猫猫,惊叹于 emergent behavior。
2020年,因为缺数据而放弃。
2024年11月,挖来 Meta 的硬件负责人 Caitlin Kalinowski,重启机器人团队。
2025年2月,旧金山秘密实验室悄然启动。
2026年3月,关掉 Sora,全面转向世界模型和机器人。
这条路径看起来曲折,但逻辑是清晰的:先把物理世界”理解”的问题解决(世界模型),再把物理世界”交互”的问题解决(机器人控制)。先理解,再行动。
婴儿学东西也是这个顺序:先花几个月观察世界,再伸手去够玩具。认知先于行动。皮亚杰的认知发展理论把这个叫做”感知运动阶段”——婴儿通过感知和动作的协调来建立对世界的理解。OpenAI 的路径,本质上就是在让 AI 走完这个过程。
但有一个问题 OpenAI 还没回答。
LLM 可以从互联网上几乎免费地获取训练数据。但机器人的每一个训练动作,都要在物理世界中真金白银地采集——100个人三班倒用机械臂叠衣服,叠一年也不过几万小时的数据。OpenAI 自己的数据采集主管去年12月就提出过:实验室需要提升生产效率,数据采集目标在过去数月近乎翻倍。
文字是免费的。物理世界是昂贵的。
OpenAI 用100个人在旧金山叠衣服、烤面包、放橡皮鸭,暴露了整个行业一个不愿面对的尴尬:我们有了这个时代最聪明的 AI 大脑,但教它认识物理世界的方式,和教一个婴儿学走路没什么区别——一遍一遍地重复,靠时间堆出来。
这不是 OpenAI 一家的问题。Tesla 用动作捕捉服训练 Optimus,Figure 用 VR 头显操控 Figure 02,1X 在挪威的实验室里做同样的事。方式不同,本质一样:物理世界的数据,只能用物理方式获取。没有捷径。
从这个角度看,OpenAI 进军机器人这件事,最值得关注的不是它能做出什么样的机器人,而是它暴露了一个更深层的问题——当 AI 已经能写代码、做推理、通过80年数学悬案的时候,我们教它认识物理世界的方式,仍然停留在最原始的人力驱动阶段。
AGI 的最后一公里,可能不在算法里,在数据采集的工厂里。
关注 SomethingAI 公众号
每日 AI 趋势日报,深度选题分析,独立开发思考
微信搜索「SomethingAI」关注