DeepSeek拿下17%流量，AI脱钩是个幻觉

詹叔 · 2026年06月30日

Coinbase 的 CEO Brian Armstrong 最近发了一条帖子，说了一句话，可能比任何一份政策文件都更准确地描述了 AI 竞争的真实走向：

“我们的工程师现在默认使用的模型是 GLM 5.2 和 Kimi 2.7。”

GLM 来自智谱，Kimi 来自月之暗面。两家中国公司。

这不是 Armstrong 在表达某种立场。他只是在陈述事实：Coinbase 搭建了一套自动路由系统，根据任务类型、价格和缓存潜力，实时为每个请求选择最优模型。结果——AI 花费砍了一半，token 用量不降反升，91% 的工程师甚至没碰到过原来的用量上限。

同一个月，AI Agent 平台 Lindy 的创始人 Flo Crivello 宣布：100% 生产流量从 Anthropic 迁到 DeepSeek v4。他在 X 上写道：”省了几百万美元，而且在很多核心场景上性能反而更好了。”

两件事放在一起，指向一个被舆论叙事掩盖的事实：在 AI 竞赛中，企业正在用 token 流量投票，而选票正在涌向中国模型。

Token 经济学的残酷算术

理解这件事，得先搞清楚一个反直觉的经济学现象。

你可能觉得，模型降价了，企业的 AI 账单应该跟着降。但现实完全相反。NBER 2026 年的一篇工作论文（w34608）用两大 AI 市场的实测数据证明了一条规律：token 价格每下降 10%，用量上涨 12-18%。

这不是”省钱”，这是杰文斯悖论的 AI 版——1865 年人们发现煤的燃烧效率提高后，煤的总消耗量不降反升，因为更多场景变得划算了。token 正在重演这条路。

Bain 的报告给出了宏观尺度：模型价格每代下降约 10 倍。但企业端的真实感受不是”便宜了 10 倍”，而是”账单在爆炸”。因为用量增长的曲线比价格下降的曲线更陡。

Coinbase 就是最典型的例子。Armstrong 在帖子里透露了一个数字：在迁移到中国模型 + 优化路由策略后，缓存命中率从 5% 飙升到 60%，AI 总支出砍掉一半——但 token 消耗量是上升的。不是少用了，是单价低到足以覆盖更多场景。

Lindy 的故事更加极端。Crivello 在迁移前说过一句话，足以让所有 AI 创业公司后背发凉：

“LLM 成本是我们公司最大的一笔开支，超过了全部工资总额。”

不是接近。是超过。一家不到 50 人的创业公司，喂模型的费用比养所有人的成本还高。这家公司背后有 5200 万美元的融资，创始人曾是 Uber 的工程负责人。不是没钱的团队在抠成本，是行业里相当体面的选手已经被推理费用逼到了墙角。

切换到 DeepSeek v4 后，Crivello 说迁移后成本降了约 90%。”省了几百万美元”。

更有意思的是他的态度：

“如果你和我们一样在 token 上花很多钱，100% 应该换。不换是不负责任的。”

这不是情怀，不是地缘偏好，不是对开源社区的忠诚。这是纯到不能再纯的财务决策。当你的最大开支项可以被砍掉 90%，且性能不降反升，不切才需要解释理由。

性能差距已经消失了

“中国模型便宜”这个认知，大多数人的心理模型还停留在”便宜但差一截”的阶段。

这个认知需要更新了。

Lindy 在迁移前花了 6-9 个月评估各种开源模型，又专门花了约 2 个月测试 DeepSeek。他们跑了线上评估、离线评估，甚至搞了一套”vibe eval”（对，就是凭感觉用）。结果：在邮件分类、草稿回复等核心场景上，DeepSeek v4 的表现超过了 Anthropic 的模型。唯一仍然落后的，是复杂工作流自动化——而 Lindy 的计划是，只在 DeepSeek 失败的时候才升级到 Opus 作为兜底，”但那会是边缘场景”。

The Decoder 的报道提到，Snowflake 内部测试中国模型后发现：性能与 Opus 4.7 相当，成本只有零头。

而 Vercel AI Gateway 5 月份的数据给出了市场层面的证据：DeepSeek 的 token 流量份额从不到 1% 一跃跳到 17%——但对应的实际花费份额仍然只有 1% 左右。

17% 的用量，1% 的账单。

这就是中国模型的价格结构：不是”便宜一点”，是”便宜到整个商业模型需要重新计算”。

过去几年，AI 模型市场有一个”舒适的中间地带”——比 OpenAI 便宜，比开源好用的模型。这个中间地带正在消失。The New Stack 的分析说得很直白：市场正在分裂成两个集群，一个是超高端前沿模型（OpenAI、Anthropic），一个是白菜价的开源替代品（主要是中国实验室出品），中间层正在被从两头挤压。

为什么中国模型能做到这么便宜？The Diplomat 2026 年 5 月的分析给出了一个结构层面的解释：中国在走一条和芯片封锁完全不同的路线——既然高端芯片买不到，那就从算法效率、训练成本、token 单价上把成本压到极致，然后用价格优势反向渗透全球市场。 DeepSeek V3 据报道只花了约 600 万美元训练，而 V4 更是首个完全运行在华为 CANN（CUDA 的国产替代）上的前沿级 AI 全栈。

这不是”用低端芯片硬扛”。这是换了一条赛道。

合规的灰色地带

如果这是一个纯粹的商业故事，到这里就结束了。但它不是。

Harmonic Security 2026 年的报告披露了一组数据：每 12 个企业员工中就有 1 人在过去一个月使用过中国 AI 工具。 其中 Kimi（月之暗面）的渗透率遥遥领先。

注意，这不是公司层面的采购决策。这是员工个人层面的行为。你在公司用 Slack 传文件，顺手把一段代码贴进 Kimi 让它帮忙 debug，或者把一份会议纪要扔给 DeepSeek 让它生成摘要。没有审批，没有 IT 部门知晓，没有任何 DLP（数据防泄漏）策略覆盖。

这就是安全行业所说的”影子 IT”。而当免费的中国模型在网页上随手可用、且性能足以对标 Claude 的时候，员工没有任何理由不这么做。

公司层面，问题更加复杂。Armstrong 和 Crivello 都面临同一个尖锐的问题：你的客户数据、代码库、商业逻辑，正在流经中国实验室提供的推理服务——即使数据托管在美国本土（Lindy 选了美国的 Atlas Cloud 作为推理供应商），模型的权重、训练数据、对齐方式仍然由中国公司掌握。

Brookings 的研究指出，中国 AI 模型在基本安全特性上落后于美国系统——包括对越狱攻击的抵抗力和对有害输出的过滤。Armis 的安全分析更进一步：低价 AI 的引入不仅是成本优化，也可能成为新的攻击面。

GDPR 层面已经出现了反应。意大利、韩国在 DeepSeek R1 发布后先后出台了不同程度的限制措施。AI-Regulation 的追踪报告显示，DeepSeek 发布一年后，全球至少 7 个司法管辖区对其施加了监管限制或完全禁令。

但这些禁令大多只覆盖政府设备和特定行业。企业层面的使用？几乎不受约束。

这就是现实：合规框架的更新速度，远远跟不上 token 流量的迁移速度。 政策还在讨论”要不要限制”，企业已经在用 Coinbase 的路由系统把中国模型设为默认选项了。

Token 出口：芯片封锁的反面

现在把视角拉到地缘政治层面。

美国的 AI 战略核心是芯片封锁——限制高端 GPU 出口，卡住中国在算力层面的天花板。从 CFR 的分析来看，这个策略在硬件层面是有效的：截至 2025 年底，美国最好的 AI 芯片大约比中国领先 5 倍，预计到 2027 年下半年这个差距会拉大到 17 倍。

但 The Diplomat 的分析点出了一个结构性矛盾：芯片算力的领先，并没有转化为 token 经济的领先。

中国的策略恰恰是在”用更少的芯片榨出更多的 token”。然后把这些低价 token 输出到全球市场。美国封的是芯片的物理流动，中国输出的是 token 的数字流动。前者有海关可以拦，后者只需要一个 API 端点。

USCC（美中经济与安全审查委员会）2026 年 3 月的报告用”两个循环”来描述这个策略：

第一个循环：中国实验室以极低价格（甚至免费开源权重）向全球输出 AI 模型，占领开发者心智和企业基础设施。低价本身不是目的，而是建立依赖的手段。

第二个循环：当全球开发者和企业围绕中国模型构建工具链、工作流、评估体系时，整个 AI 生态——从框架到推理引擎到应用层——开始向中国标准靠拢。这和当年 5G 设备的渗透逻辑如出一辙，只是速度快了一个数量级。

这就是”Token 出口”的真正含义。它不是某个产品的倾销，而是整个推理成本曲线的下沉。当 OpenAI 的 token 价格是 DeepSeek 的十几倍，且性能差距已经小到需要专门的评估框架才能区分时，市场会自己做出选择。企业没有义务为地缘政治叙事买单。

而且这个选择一旦做出，就很难逆转。Lindy 的 Crivello 说迁移过程”比预想的难了 100 倍”——需要重写 prompt、重建评估体系、调试边缘场景。这意味着一旦迁移完成，切换成本本身就是一道护城河。中国企业不需要在性能上永远领先，只需要在足够长的时间窗口内保持价格优势，足够多的企业完成迁移，生态就固化了。

价格信号比政策信号更诚实

回到开头那个画面：Coinbase 的工程师们，每天打开内部 AI 网关，默认选项是 GLM 5.2 和 Kimi 2.7。

Armstrong 没有发声明说”我们支持中国 AI”。他只是做了一道算术题，然后给出了答案。这道算术题，全球每一个 AI 密集型企业都在算。有些算完之后像 Coinbase 一样公开迁移，有些算完之后悄悄换掉默认模型，更多的——按照 Harmonic 的数据——是员工自己偷偷换的，IT 部门根本不知道。

2025 年底，所有人都在讨论 AI 脱钩。2026 年中，企业的 token 流量给出了另一个答案。

芯片封锁的确在硬件层面拉开了差距。但在应用层面、在企业基础设施层面、在全球开发者每天产生数十亿 token 的真实战场上，中国模型不是在追赶——它们在渗透，在定价，在重新定义”足够好”的标准。

这不是情怀。这是价格信号的诚实。当账单砍半、性能不降、迁移已完成的时候，没有一家公司会为了政治正确多付十倍的推理费。

杰文斯悖论告诉我们，效率提升不会减少消耗，只会让更多场景变得可行。Token 经济学的版本是：价格下降不会减少总支出，只会让 AI 渗透到此前算不过来账的每一个角落。而中国模型，正在以全球最低的单价，成为这个渗透过程的默认载体。

芯片战争的胜负可能还要十年才能见分晓。但 Token 战争的第一局，比分已经出来了。

关注 SomethingAI 公众号

每日 AI 趋势日报，深度选题分析，独立开发思考

微信搜索「SomethingAI」关注