← 返回

DeepSeek拿下17%流量,AI脱钩是个幻觉

詹叔 · 2026年06月30日

Coinbase 的 CEO Brian Armstrong 最近发了一条帖子,说了一句话,可能比任何一份政策文件都更准确地描述了 AI 竞争的真实走向:

“我们的工程师现在默认使用的模型是 GLM 5.2 和 Kimi 2.7。”

GLM 来自智谱,Kimi 来自月之暗面。两家中国公司。

这不是 Armstrong 在表达某种立场。他只是在陈述事实:Coinbase 搭建了一套自动路由系统,根据任务类型、价格和缓存潜力,实时为每个请求选择最优模型。结果——AI 花费砍了一半,token 用量不降反升,91% 的工程师甚至没碰到过原来的用量上限。

同一个月,AI Agent 平台 Lindy 的创始人 Flo Crivello 宣布:100% 生产流量从 Anthropic 迁到 DeepSeek v4。他在 X 上写道:”省了几百万美元,而且在很多核心场景上性能反而更好了。”

两件事放在一起,指向一个被舆论叙事掩盖的事实:在 AI 竞赛中,企业正在用 token 流量投票,而选票正在涌向中国模型。


Token 经济学的残酷算术

理解这件事,得先搞清楚一个反直觉的经济学现象。

你可能觉得,模型降价了,企业的 AI 账单应该跟着降。但现实完全相反。NBER 2026 年的一篇工作论文(w34608)用两大 AI 市场的实测数据证明了一条规律:token 价格每下降 10%,用量上涨 12-18%。

这不是”省钱”,这是杰文斯悖论的 AI 版——1865 年人们发现煤的燃烧效率提高后,煤的总消耗量不降反升,因为更多场景变得划算了。token 正在重演这条路。

Bain 的报告给出了宏观尺度:模型价格每代下降约 10 倍。但企业端的真实感受不是”便宜了 10 倍”,而是”账单在爆炸”。因为用量增长的曲线比价格下降的曲线更陡。

Coinbase 就是最典型的例子。Armstrong 在帖子里透露了一个数字:在迁移到中国模型 + 优化路由策略后,缓存命中率从 5% 飙升到 60%,AI 总支出砍掉一半——但 token 消耗量是上升的。不是少用了,是单价低到足以覆盖更多场景。

Lindy 的故事更加极端。Crivello 在迁移前说过一句话,足以让所有 AI 创业公司后背发凉:

“LLM 成本是我们公司最大的一笔开支,超过了全部工资总额。”

不是接近。是超过。一家不到 50 人的创业公司,喂模型的费用比养所有人的成本还高。这家公司背后有 5200 万美元的融资,创始人曾是 Uber 的工程负责人。不是没钱的团队在抠成本,是行业里相当体面的选手已经被推理费用逼到了墙角。

切换到 DeepSeek v4 后,Crivello 说迁移后成本降了约 90%。”省了几百万美元”。

更有意思的是他的态度:

“如果你和我们一样在 token 上花很多钱,100% 应该换。不换是不负责任的。”

这不是情怀,不是地缘偏好,不是对开源社区的忠诚。这是纯到不能再纯的财务决策。当你的最大开支项可以被砍掉 90%,且性能不降反升,不切才需要解释理由。


性能差距已经消失了

“中国模型便宜”这个认知,大多数人的心理模型还停留在”便宜但差一截”的阶段。

这个认知需要更新了。

Lindy 在迁移前花了 6-9 个月评估各种开源模型,又专门花了约 2 个月测试 DeepSeek。他们跑了线上评估、离线评估,甚至搞了一套”vibe eval”(对,就是凭感觉用)。结果:在邮件分类、草稿回复等核心场景上,DeepSeek v4 的表现超过了 Anthropic 的模型。唯一仍然落后的,是复杂工作流自动化——而 Lindy 的计划是,只在 DeepSeek 失败的时候才升级到 Opus 作为兜底,”但那会是边缘场景”。

The Decoder 的报道提到,Snowflake 内部测试中国模型后发现:性能与 Opus 4.7 相当,成本只有零头。

而 Vercel AI Gateway 5 月份的数据给出了市场层面的证据:DeepSeek 的 token 流量份额从不到 1% 一跃跳到 17%——但对应的实际花费份额仍然只有 1% 左右。

17% 的用量,1% 的账单。

这就是中国模型的价格结构:不是”便宜一点”,是”便宜到整个商业模型需要重新计算”。

过去几年,AI 模型市场有一个”舒适的中间地带”——比 OpenAI 便宜,比开源好用的模型。这个中间地带正在消失。The New Stack 的分析说得很直白:市场正在分裂成两个集群,一个是超高端前沿模型(OpenAI、Anthropic),一个是白菜价的开源替代品(主要是中国实验室出品),中间层正在被从两头挤压。

为什么中国模型能做到这么便宜?The Diplomat 2026 年 5 月的分析给出了一个结构层面的解释:中国在走一条和芯片封锁完全不同的路线——既然高端芯片买不到,那就从算法效率、训练成本、token 单价上把成本压到极致,然后用价格优势反向渗透全球市场。 DeepSeek V3 据报道只花了约 600 万美元训练,而 V4 更是首个完全运行在华为 CANN(CUDA 的国产替代)上的前沿级 AI 全栈。

这不是”用低端芯片硬扛”。这是换了一条赛道。


合规的灰色地带

如果这是一个纯粹的商业故事,到这里就结束了。但它不是。

Harmonic Security 2026 年的报告披露了一组数据:每 12 个企业员工中就有 1 人在过去一个月使用过中国 AI 工具。 其中 Kimi(月之暗面)的渗透率遥遥领先。

注意,这不是公司层面的采购决策。这是员工个人层面的行为。你在公司用 Slack 传文件,顺手把一段代码贴进 Kimi 让它帮忙 debug,或者把一份会议纪要扔给 DeepSeek 让它生成摘要。没有审批,没有 IT 部门知晓,没有任何 DLP(数据防泄漏)策略覆盖。

这就是安全行业所说的”影子 IT”。而当免费的中国模型在网页上随手可用、且性能足以对标 Claude 的时候,员工没有任何理由不这么做。

公司层面,问题更加复杂。Armstrong 和 Crivello 都面临同一个尖锐的问题:你的客户数据、代码库、商业逻辑,正在流经中国实验室提供的推理服务——即使数据托管在美国本土(Lindy 选了美国的 Atlas Cloud 作为推理供应商),模型的权重、训练数据、对齐方式仍然由中国公司掌握。

Brookings 的研究指出,中国 AI 模型在基本安全特性上落后于美国系统——包括对越狱攻击的抵抗力和对有害输出的过滤。Armis 的安全分析更进一步:低价 AI 的引入不仅是成本优化,也可能成为新的攻击面。

GDPR 层面已经出现了反应。意大利、韩国在 DeepSeek R1 发布后先后出台了不同程度的限制措施。AI-Regulation 的追踪报告显示,DeepSeek 发布一年后,全球至少 7 个司法管辖区对其施加了监管限制或完全禁令。

但这些禁令大多只覆盖政府设备和特定行业。企业层面的使用?几乎不受约束。

这就是现实:合规框架的更新速度,远远跟不上 token 流量的迁移速度。 政策还在讨论”要不要限制”,企业已经在用 Coinbase 的路由系统把中国模型设为默认选项了。


Token 出口:芯片封锁的反面

现在把视角拉到地缘政治层面。

美国的 AI 战略核心是芯片封锁——限制高端 GPU 出口,卡住中国在算力层面的天花板。从 CFR 的分析来看,这个策略在硬件层面是有效的:截至 2025 年底,美国最好的 AI 芯片大约比中国领先 5 倍,预计到 2027 年下半年这个差距会拉大到 17 倍。

但 The Diplomat 的分析点出了一个结构性矛盾:芯片算力的领先,并没有转化为 token 经济的领先。

中国的策略恰恰是在”用更少的芯片榨出更多的 token”。然后把这些低价 token 输出到全球市场。美国封的是芯片的物理流动,中国输出的是 token 的数字流动。前者有海关可以拦,后者只需要一个 API 端点。

USCC(美中经济与安全审查委员会)2026 年 3 月的报告用”两个循环”来描述这个策略:

第一个循环:中国实验室以极低价格(甚至免费开源权重)向全球输出 AI 模型,占领开发者心智和企业基础设施。低价本身不是目的,而是建立依赖的手段。

第二个循环:当全球开发者和企业围绕中国模型构建工具链、工作流、评估体系时,整个 AI 生态——从框架到推理引擎到应用层——开始向中国标准靠拢。这和当年 5G 设备的渗透逻辑如出一辙,只是速度快了一个数量级。

这就是”Token 出口”的真正含义。它不是某个产品的倾销,而是整个推理成本曲线的下沉。当 OpenAI 的 token 价格是 DeepSeek 的十几倍,且性能差距已经小到需要专门的评估框架才能区分时,市场会自己做出选择。企业没有义务为地缘政治叙事买单。

而且这个选择一旦做出,就很难逆转。Lindy 的 Crivello 说迁移过程”比预想的难了 100 倍”——需要重写 prompt、重建评估体系、调试边缘场景。这意味着一旦迁移完成,切换成本本身就是一道护城河。中国企业不需要在性能上永远领先,只需要在足够长的时间窗口内保持价格优势,足够多的企业完成迁移,生态就固化了。


价格信号比政策信号更诚实

回到开头那个画面:Coinbase 的工程师们,每天打开内部 AI 网关,默认选项是 GLM 5.2 和 Kimi 2.7。

Armstrong 没有发声明说”我们支持中国 AI”。他只是做了一道算术题,然后给出了答案。这道算术题,全球每一个 AI 密集型企业都在算。有些算完之后像 Coinbase 一样公开迁移,有些算完之后悄悄换掉默认模型,更多的——按照 Harmonic 的数据——是员工自己偷偷换的,IT 部门根本不知道。

2025 年底,所有人都在讨论 AI 脱钩。2026 年中,企业的 token 流量给出了另一个答案。

芯片封锁的确在硬件层面拉开了差距。但在应用层面、在企业基础设施层面、在全球开发者每天产生数十亿 token 的真实战场上,中国模型不是在追赶——它们在渗透,在定价,在重新定义”足够好”的标准。

这不是情怀。这是价格信号的诚实。当账单砍半、性能不降、迁移已完成的时候,没有一家公司会为了政治正确多付十倍的推理费。

杰文斯悖论告诉我们,效率提升不会减少消耗,只会让更多场景变得可行。Token 经济学的版本是:价格下降不会减少总支出,只会让 AI 渗透到此前算不过来账的每一个角落。而中国模型,正在以全球最低的单价,成为这个渗透过程的默认载体。

芯片战争的胜负可能还要十年才能见分晓。但 Token 战争的第一局,比分已经出来了。

关注 SomethingAI 公众号

每日 AI 趋势日报,深度选题分析,独立开发思考

微信搜索「SomethingAI」关注