Sora 死了，OpenAI 的机器人活了

詹叔 · 2026年06月01日

2026年3月24日，OpenAI 在一次内部员工会议上宣布了一个让外界震惊的决定：关掉 Sora。

视频生成 App，关。API，关。ChatGPT 里的视频功能，关。四个月前刚和迪士尼签的10亿美元合作协议，随之作废。

Sora 峰值用户曾达到100万，日运营成本约100万美元。关掉一个花了两年半做的产品，在商业逻辑上几乎说不通。

但如果你看过 OpenAI 在同一时间段做的另一件事，这个决定的逻辑就清晰了：

旧金山一栋大楼里，和财务团队同处一个楼层，一间秘密机器人实验室已经运转了一年多。100多名数据采集员实行三班倒制度，用一款叫 GELLO 的3D打印控制器远程操控 Franka 机械臂——烤面包、叠衣服、把橡皮鸭放进杯子里。

这个实验室2025年2月启动，一年之内规模扩大了四倍，第二间实验室正在加州里士满筹建。

Sora 团队的华人研究员王若宸在朋友圈里说出了实情：Sora 团队的终极目标，一直是通用机器人。 视频生成和具身智能的研究路线越来越分化，难以兼顾，关停 Sora 业务线只是组织架构调整，研究团队一个没动。

所有人都在问”OpenAI 为什么关掉 Sora”，但很少有人注意到：关掉 Sora 不是撤退，是梭哈。

OpenAI 的机器人执念：绕了一个圈，又回来了

OpenAI 不是”进军”机器人，是回归。

2018年的 OpenAI，核心业务就是强化学习和机器人。那只靠强化学习学会单手还原魔方的机械手，是当时最出圈的成果之一。AI 智能体在虚拟环境里玩”躲猫猫”，进化出了人类设计者都没预料到的策略——用身体挡住门、搭坡道冲上去。这些成果曾在 AI 圈引发广泛讨论。

但2020年，OpenAI 叫停了整个机器人团队。

当时对外说的是”将团队重心重新调整至其他项目”。但真正的原因只有一个：没有数据。

大语言模型可以从互联网上爬取万亿 token 的文本数据来训练——维基百科、论文、代码库、社交媒体，所有数据都是公开的、可规模化的。但机器人需要的物理世界交互数据，没有现成的来源。你不能从网页里学会叠衣服，你只能用手叠一千次，然后让机器人模仿。

这个数据鸿沟在当时看起来是不可逾越的。OpenAI 选择了战略转向：放弃物理世界，把全部赌注压在语言模型上。

ChatGPT 的爆发式增长证明了这是个正确的选择。

但有意思的是，正是 ChatGPT 的成功，为 OpenAI 回归机器人铺了路。

GPT 系列模型在过去两年对物理世界的理解能力发生了质变。不是通过在真实环境中反复训练，而是通过海量文本和图像的学习——模型在训练中内化了重力、物体遮挡、工具使用、因果关系这些物理世界的底层规则。这种理解不完美，但在一个关键维度上足够了：它让自然语言变成了控制机器人的接口。

你不需要为每个任务写专门的控制代码，只需要用人类语言描述任务。这正是 OpenAI 最有优势的地方——没有哪家公司比 OpenAI 更擅长”让 AI 理解人类指令”。

Sora 的价值也在这条链路上。视频生成本身被关停了，但 Sora 团队在视频模型中积累的”世界模拟”能力——理解物体运动轨迹、物理交互时序、场景一致性——恰恰是机器人需要的基础能力。

关掉 Sora 的表面原因是”算力需求增长需要做取舍”。但深层逻辑是：视频生成只是通往世界模型的中间站，世界模型才是通往机器人的门票。 Sora 的任务完成了。

赛道已经挤满了，OpenAI 凭什么赢

OpenAI 不是第一个来做机器人的。甚至可能是最后一个入场的主要玩家。

Figure AI，2022年成立。2024年初拿到6.75亿美元融资，估值26亿美元，投资方包括贝索斯、英伟达、微软和 OpenAI 自己。Figure 01 是最早展示能听懂人类指令并执行对话的人形机器人之一。但2025年2月，Figure CEO Brett Adcock 宣布终止与 OpenAI 的合作。

1X Technologies，挪威公司。OpenAI 在2023年领投了其2350万美元融资。2026年 CES 上，1X 展示了家务人形机器人 NEO，售价2万美元，计划2026年开始向美国市场交付。NEO 的定位很清晰：从实验室走向消费市场的第一步。

Physical Intelligence（π），更纯粹的”软件大脑”路线。不做硬件，只做通用的机器人控制模型。2025年与智元机器人达成战略合作，估值据报在2026年4月翻倍至约110亿美元。

Tesla 的 Optimus 一直在用动作捕捉服加 VR 头显训练全尺寸人形机器人，走的是马斯克标志性的”高调 demo”路线。

国内也没有闲着。理想汽车2026年5月一口气新增了具身工程、具身交互、具身行为三大部门，内部代号 Nexus 的人形机器人团队已经秘密运作。

赛道这么拥挤，OpenAI 的差异化在哪？

第一，训练方法论完全不同。

Figure 和 Tesla 用的是”动作捕捉”路线——人穿上动作捕捉服，用 VR 头显操控全尺寸人形机器人，记录全身动作数据。这种方式的优点是直观，演示效果炫酷。缺点也明显：成本极高，一个人一次只能操控一台机器人，数据采集效率有天花板。

OpenAI 选了一条更低调但更具扩展性的路：用低成本的 GELLO 控制器操控桌面级 Franka 机械臂，专注于基础动作的规模化数据采集。GELLO 控制器是3D打印的，一个操作员对应一台机械臂，动作直接映射，不需要动作捕捉服那种复杂的全身追踪系统。

这种路线来自加州大学伯克利分校2023年的一项研究——提出低成本、可规模化的远程操控数据采集方案。论文的一位作者已在2024年8月加入 OpenAI，负责”构建机器人智能中枢”。

两种路线不只是技术选择，是战略选择的差异。Figure 和 Tesla 要的是”看起来很厉害的演示”，用来融资、吸引眼球、建立品牌。OpenAI 要的是”数据飞轮能转起来”——先积累足够多的基础动作数据，再让模型从中学习通用策略，最终实现自主控制。

这和 OpenAI 训练 ChatGPT 的思路如出一辙：先有海量数据，再有大模型，然后涌现出通用能力。只不过这次的数据不是文本，是物理动作。

第二，软件优势反哺硬件。

Figure 需要自己训练 AI 模型。1X 依赖 OpenAI 的多模态能力。但 Physical Intelligence 的通用控制模型，理论上可以适配任何机器人硬件——物理硬件正在被商品化。

如果走”通用模型+合作伙伴硬件”的路线，竞争就像当年的 Android 和 iOS。但 OpenAI 选择自己造硬件、自己组团队，说明它判断：未来的机器人不是”一个模型适配所有硬件”，而是”硬件和软件必须协同设计”。

就像苹果不做搜索引擎但做 iPhone——只有控制硬件，才能保证软件体验的完整性。

第三，隐性的数据飞轮。

OpenAI 最大的隐藏优势不是技术，是 ChatGPT 的用户数据。数亿用户的日常对话中，包含巨量的物理世界描述——“帮我查一下怎么修水龙头”“这个螺丝拧不进去”“杯子从桌上掉下来了”。

这些自然语言中的物理世界知识，可以转化为机器人控制的数据来源。这不是 Figure 或 Physical Intelligence 能获取的。这是独属于 OpenAI 的护城河。

硬件和 AI 的协同设计，不是简单的拼装

OpenAI 的机器人团队正在重金招聘 SLAM（同步定位与地图构建）专家，开出270万到320万人民币的底薪。

SLAM 在”端到端”时代被不少人认为过时了。既然 AI 可以直接从感知到动作端到端学习，还要什么传统几何感知？

但 OpenAI 在端到端时代重金招 SLAM，说明了一个清醒的判断：纯端到端在物理世界不够用。

大语言模型里端到端有效，因为语言和知识的表示相对低维。但物理世界是高维的、连续的、实时的。机器人需要精确知道”我的手在三维空间中的哪个坐标”“桌子边缘的确切位置”“这个物体的质量分布”——这些需要精确的数值计算，不能靠概率分布模糊过去。

这不是技术倒退，是务实。人脑处理语言可以模糊，但伸手拿一杯热水的时候，手的位置误差不能超过几厘米。

硬件+ML 协同设计的真正含义是：不是让 ML 适应现有硬件，也不是让硬件适应现有 ML，而是从头开始，让硬件和 AI 共同进化。

传感器的设计不再以人类视觉为标准，而是以模型的输入格式为标准——什么样的摄像头分辨率和帧率能让模型做出最优决策？关节电机的响应特性应该和模型的控制频率如何匹配？这些问题的答案，只有在硬件和模型共同迭代中才能找到。

OpenAI 收购 Jony Ive 创办的 AI 硬件公司 io（作价65亿美元），计划推出 AI 计算设备，也从侧面印证了这个战略方向——OpenAI 正在从一家”软件公司”变成”软硬件一体化公司”。

这个转变的影响不只局限于机器人领域。它意味着 AI 行业的竞争维度正在升级：不再是模型参数量的比拼，而是”谁能把 AI 嵌入物理世界”的比拼。芯片需要为实时推理优化，传感器需要为 ML 重新设计，机器人的形态需要为 AI 的控制能力量身打造。

最后一个问题

OpenAI 的机器人之路，最早可以追溯到2018年。那时候它还是一家非营利研究机构，一群人在虚拟环境里看着 AI 智能体玩躲猫猫，惊叹于 emergent behavior。

2020年，因为缺数据而放弃。

2024年11月，挖来 Meta 的硬件负责人 Caitlin Kalinowski，重启机器人团队。

2025年2月，旧金山秘密实验室悄然启动。

2026年3月，关掉 Sora，全面转向世界模型和机器人。

这条路径看起来曲折，但逻辑是清晰的：先把物理世界”理解”的问题解决（世界模型），再把物理世界”交互”的问题解决（机器人控制）。先理解，再行动。

婴儿学东西也是这个顺序：先花几个月观察世界，再伸手去够玩具。认知先于行动。皮亚杰的认知发展理论把这个叫做”感知运动阶段”——婴儿通过感知和动作的协调来建立对世界的理解。OpenAI 的路径，本质上就是在让 AI 走完这个过程。

但有一个问题 OpenAI 还没回答。

LLM 可以从互联网上几乎免费地获取训练数据。但机器人的每一个训练动作，都要在物理世界中真金白银地采集——100个人三班倒用机械臂叠衣服，叠一年也不过几万小时的数据。OpenAI 自己的数据采集主管去年12月就提出过：实验室需要提升生产效率，数据采集目标在过去数月近乎翻倍。

文字是免费的。物理世界是昂贵的。

OpenAI 用100个人在旧金山叠衣服、烤面包、放橡皮鸭，暴露了整个行业一个不愿面对的尴尬：我们有了这个时代最聪明的 AI 大脑，但教它认识物理世界的方式，和教一个婴儿学走路没什么区别——一遍一遍地重复，靠时间堆出来。

这不是 OpenAI 一家的问题。Tesla 用动作捕捉服训练 Optimus，Figure 用 VR 头显操控 Figure 02，1X 在挪威的实验室里做同样的事。方式不同，本质一样：物理世界的数据，只能用物理方式获取。没有捷径。

从这个角度看，OpenAI 进军机器人这件事，最值得关注的不是它能做出什么样的机器人，而是它暴露了一个更深层的问题——当 AI 已经能写代码、做推理、通过80年数学悬案的时候，我们教它认识物理世界的方式，仍然停留在最原始的人力驱动阶段。

AGI 的最后一公里，可能不在算法里，在数据采集的工厂里。

关注 SomethingAI 公众号

每日 AI 趋势日报，深度选题分析，独立开发思考

微信搜索「SomethingAI」关注