6月1日,台北,GTC Taipei。黄仁勋站在舞台上,身后的大屏幕上是一颗黑底绿光的芯片。
RTX Spark。英伟达的第一款PC处理器。
这不是一颗普通的CPU。它是英伟达把GPU、CPU、统一内存全部焊死在一个SoC上的一次豪赌,也是这家公司自2014年退出手机芯片市场后,对消费级计算最大的一次回归。
所有人都在讨论「英伟达做了CPU」。但这个说法本身就是对RTX Spark最大的误解。
英伟达不是第一次做SoC。
2008年,NVIDIA发布Tegra——一颗集成了ARM CPU和GeForce GPU的移动芯片。Tegra 2是全球第一款手机双核处理器,Tegra 3是全球第一款四核。技术上领先,商业上一败涂地。
问题出在商业模式上。英伟达习惯了卖高利润的数据中心GPU,但移动芯片市场对价格极度敏感。TSMC 28nm产能受限,三星自己下场做芯片,高通手握基带专利掌握着通讯入口。2014年黄仁勋公开承认移动芯片战略失败,次年卖掉基带业务,把Tegra转向汽车和任天堂Switch。
此后十年,英伟达在GPU领域一骑绝尘,市值从不到200亿美元涨到超过3万亿美元。但消费级SoC这根刺,始终没有拔掉。
RTX Spark可以看作Tegra的精神续作。同样是ARM架构,同样是CPU+GPU融合设计。但这一次战场不是手机而是PC,对手不是高通和三星,而是英特尔和AMD。更重要的是,这一次英伟达手里有一张Tegra时代没有的王牌:AI。
RTX Spark的本质不是一颗CPU加了GPU,而是一个面向AI计算重新设计的完整架构。
GPU部分:6144个Blackwell架构CUDA核心,第五代Tensor Core支持FP4精度,算力1 Petaflop。性能大致相当于RTX 5070笔记本版,但整颗SoC的TDP只有45到80瓦。
CPU部分:20核Arm架构Grace处理器,由联发科定制设计,采用Cortex-X925大核加Cortex-A725小核组合。黄仁勋在发布会上几乎没有提及CPU的名字——他要传递的信息很明确:CPU是配角,GPU才是主角。
互连:NVLink-C2C芯片间互连,带宽600GB/s。CPU和GPU之间不再走传统的PCIe总线。
然后是128GB的统一内存。这可能是RTX Spark最被低估的特性。
在传统x86 PC上,CPU有系统内存,GPU有独立显存,两者通过PCIe总线交换数据,带宽通常32到64GB/s。想让GPU跑一个大模型,必须先把模型从系统内存拷到显存——又慢又浪费。更大的问题在于容量:即便高端显卡配备了24GB或32GB显存,要跑120B参数的大模型也远远不够。
RTX Spark的统一内存让CPU和GPU共享同一块128GB LPDDR5X,不需要拷贝,不需要分配。英伟达给出的数据是:在本地运行1200亿参数、100万token上下文的大型语言模型,零延迟,绝对隐私。
这是在架构层面消灭了「系统内存」和「显存」之间的边界。x86做不到这件事,不是工程能力的问题,而是指令集层面的限制。
听到「统一内存」和「SoC」,熟悉芯片行业的人会立刻想到苹果M1。
2020年苹果发布M1,用自研SoC加统一内存的架构证明了一件事:在笔记本的功耗限制下,SoC设计可以碾压传统「CPU加独立显卡」的方案。从此以后,「Apple Silicon」成了PC行业的性能标杆,英特尔和AMD花了四年追赶,但x86架构的天花板始终在那里。
现在NVIDIA在Windows上做了同样的事。而且手里的牌比苹果更多。
苹果有统一内存,但没有CUDA生态。CUDA是过去十五年AI计算的事实标准——PyTorch、TensorFlow、vLLM、llama.cpp,几乎所有AI框架都以CUDA为第一优先级优化。CUDA的软件壁垒不是钱能砸出来的,那是十几年的开发者习惯和代码积累。
苹果有自研芯片,但没有游戏生态。NVIDIA的RTX光追、DLSS、Reflex低延迟、G-SYNC覆盖了超过1000款RTX游戏及应用。RTX Spark支持1440p下超过100fps的光追AAA游戏。
苹果选择了一条封闭的路,不兼容其他架构。NVIDIA选择和微软、联发科、所有主流OEM一起干。微软Surface Laptop Ultra、华硕、戴尔、惠普、联想、微星全部确认今年秋季推出RTX Spark设备,宏碁和技嘉随后跟进。
苹果是在自己的封闭花园里重新定义了PC。NVIDIA要做的是在Windows这个占据全球70%以上PC市场份额的开放生态里,重演同样的故事——而且有更完整的GPU和AI生态作为支撑。
这就是为什么RTX Spark不仅仅是一个产品发布,而是PC产业的iPhone时刻:一个生态的外来者用全新的架构逻辑,打破了原有玩家的路径依赖。
RTX Spark的发布会上,黄仁勋是绝对的主角。但真正让这颗芯片在工程上成为可能的,是一个很少被讨论的配角。
联发科做的远不只是「帮忙设计一下CPU」。它承担了芯片中几乎所有非GPU部分的工程实现:基于Arm Cortex-X925和A725的20核Grace处理器、支持128GB统一内存的专用内存控制器、利用多年积累的PMIC技术实现的低功耗供电系统、以及Wi-Fi和蓝牙等通信模块的芯片级集成。
一句话:联发科从一家手机芯片供应商,一步跨入了PC处理器核心技术提供者的行列。
这件事的分量比表面上大得多。在手机芯片市场,联发科的天玑系列虽然在出货量上和高通平分秋色,但在利润和品牌认知上始终被压一头。高端旗舰市场几乎被高通独占。Windows PC是一个全新战场。联发科不需要在手机芯片上正面硬刚高通,而是通过NVIDIA的合作从PC处理器这个侧翼切入高端计算芯片市场。
对国产芯片产业来说,这个信号同样重要。Arm架构正在成为PC计算的新标准——微软选择了Arm,NVIDIA选择了Arm,联发科本身就是Arm生态的核心玩家。基于Arm架构的芯片厂商在PC端的生态壁垒正在降低。
但也要看清楚:RTX Spark中最有价值的GPU部分——6144个CUDA核心和整个CUDA软件生态——是NVIDIA独占的,没有人能复制。
RTX Spark不是只冲击一个对手,它同时从两个方向挤压不同的公司。
英特尔面临架构层面的困境。x86指令集的优势在于庞大的遗留软件生态和极高的单线程性能。但Arm架构在功耗效率上的领先越来越大。更重要的是,统一内存是Arm架构天然支持的特性,x86要做到同样的事需要在芯片设计层面做根本性改变,而英特尔的x86遗产让这种改变成本极高。英特尔不是没有尝试过——Lakefield混合架构、Alder Lake大小核、Lunar Lake低功耗优化,但都是在x86框架内打补丁,不是从零开始重新设计。
高通面临的是性能困境。骁龙X系列是当前Windows Arm生态的唯一选择,微软也投入了大量资源适配。但骁龙的GPU性能一直是短板——无法运行主流3A游戏,无法支持CUDA生态,AI推理性能也远不如NVIDIA的Tensor Core。
RTX Spark直接在高通的舒适区——Windows Arm笔记本——上建立了一个性能碾压的替代方案。而且NVIDIA已经规划了后续路线图:每两年更新一代Windows处理器,下一代将采用Rubin架构。高通在Windows PC上唯一的优势——先发和微软的深度合作——正在被快速侵蚀。
黄仁勋在发布会上说:过去四十年,人们通过点击和打字操作计算机。有了RTX Spark和Windows,你只需要提出需求,PC就会替你完成工作。
这句话听起来像标准的科技宣言。但放在RTX Spark的架构背景下,它有了具体的工程含义:1 Petaflop的AI算力、128GB统一内存、120B参数模型本地运行、零延迟的Agent体验。
AI Agent从云端走向本地、从企业走向个人、从开发者走向普通用户的技术基础已经就位。
2014年英伟达退出手机芯片市场时,Tegra被认为是一个昂贵的教训。十年后,同一个公司用同样的SoC思路——CPU加GPU加统一内存——杀回了消费级计算市场。
区别在于,这一次它带来了CUDA、DLSS、RTX光追,以及过去十年在AI芯片上建立的全部技术积累。
苹果M1证明了SoC加统一内存可以在PC上打败x86,但它是在自己的封闭生态里完成的。NVIDIA正在Windows这个占据全球70%以上PC市场的开放生态里重演这个故事,而且它有比苹果更完整的GPU和AI生态作为支撑。
如果它做到了,PC产业的格局将被彻底重塑。GPU厂商做CPU、手机芯片厂做PC处理器、Arm架构在Windows上挑战x86——五年前听起来荒诞的事,正在一件一件变成现实。
唯一确定的是:无论结果如何,「Intel Inside」这几个字,正在从PC行业的心智中慢慢消失。
关注 SomethingAI 公众号
每日 AI 趋势日报,深度选题分析,独立开发思考
微信搜索「SomethingAI」关注