上周 AI 安全圈同时炸了两件事。
一件是 PromptArmor 披露 Microsoft Copilot Cowork 存在文件泄露漏洞——攻击者可以通过精心构造的提示词,让 Copilot 在”帮忙整理文档”的过程中,悄悄把用户的其他私密文件内容发送到外部。HN 249 分,安全圈炸锅。
另一件是 Apple 发布 macOS Tahoe 26.5 安全公告,CVE-2026-28952,内核级整数溢出漏洞,可导致任意 app 获取 root 权限。发现者署名:Calif.io in collaboration with Claude and Anthropic Research。
同一个星期。一个 AI 在制造安全问题,另一个 AI 在发现安全问题。
这件事本身值得聊聊。但更有意思的是——如果你把时间线拉长,会发现这不仅仅是”巧合”,而是一个结构性趋势的起点。
先说技术。
CVE-2026-28952 是一个整数溢出漏洞。macOS 内核在处理某些输入时,没有做充分的边界检查,导致一个精心构造的请求可以让 app 提权到 root。
这类漏洞的典型特征是:静态分析工具理论上能扫到,但实际很少扫到。
原因是整数溢出往往不是”代码写错了”,而是”代码在正常情况下没问题,只有在极端边界条件下才溢出”。传统的 fuzzing 工具需要枚举这些边界条件,搜索空间巨大。而安全研究员的经验——对”哪里可能出问题”的直觉——恰恰是最稀缺的资源。
Claude 做的事情,本质上是在这个环节插了一层:用 LLM 的代码理解能力替代了一部分”安全研究员直觉”。
HN 上有人评论说得好:”What makes such vulnerability difficult to discover by traditional SAST tools?”——传统工具知道怎么扫,但不知道”该重点扫哪里”。Claude 带来的是方向性判断,不是暴力遍历。
这不是 AI 第一次发现漏洞,但这是第一次被 Apple 官方安全公告署名确认。里程碑的意义在于:从社区案例变成了官方记录。
对比之下,Copilot 的问题完全是另一个维度。
PromptArmor 的披露显示,Copilot Cowork 的攻击面不是模型本身,而是 AI agent 拥有的文件系统权限 + 对话上下文 + 自动执行链的组合效应。
具体来说:Copilot Cowork 可以读取用户 OneDrive 里的文件。这个权限本身是为了让 AI 帮你”整理文档”“总结会议记录”之类的场景。但当一个攻击者通过邮件或 Teams 消息发送了一段精心构造的提示词,Copilot 会在执行”正常任务”的过程中,顺带把用户的其它文件内容一起带出去。
这不是 prompt injection。这是 权限链的组合爆炸。
单独看每个权限——读文件、访问网络、处理消息——都没问题。但当它们被串联在一条自动执行链上,且中间没有足够的安全边界检查时,攻击面就从”单个漏洞”变成了”系统性风险”。
传统软件安全有句话叫”攻击面是所有权限的笛卡尔积”。企业级 AI 工具第一次把这句话变成了现实。
把这两件事放在一起看,才能看到真正有意思的东西。
传统意义上,AI 安全讨论的焦点一直是”怎么让 AI 更安全”——模型对齐、内容过滤、越狱防御。AI 是被审计的对象,人类安全团队是审计者。
但 Claude 发现 macOS 内核漏洞这件事,标志着一个角色翻转:AI 开始成为审计者。
更准确地说,是 AI 安全领域正在分化成两条完全不同的赛道:
赛道一:AI 自身的安全性(AI as target)
- 模型对齐、越狱防御、prompt injection 防御
- Copilot 文件泄露属于这个赛道
- 核心问题:怎么限制 AI 的行为边界
- 趋势:随着 agent 能力增强,这个赛道的复杂度在指数级增长
赛道二:AI 辅助的安全审计(AI as auditor)
- AI fuzzing、漏洞发现、代码审计
- Claude 发现 CVE 属于这个赛道
- 核心问题:怎么利用 AI 的代码理解能力提升审计效率
- 趋势:随着模型代码理解能力提升,这个赛道正在从”辅助工具”变成”主力工具”
两条赛道的同时爆发不是偶然。底层逻辑是同一个:AI 的代码理解能力已经跨越了一个临界点。
这个临界点的标志不是”AI 能写代码了”——那是去年的事。真正的标志是 AI 开始理解代码的行为语义,而不只是语法结构。整数溢出是一种语义层面的漏洞,不是语法层面的。能找到它,说明模型不只是在做模式匹配。
其实 AI 辅助漏洞挖掘的研究已经做了好几年。2024 年 Google 就用 AI 发现了 SQLite 的漏洞。但那些都是研究项目,没有进入主流安全工程流程。
变化的不是技术,是 信任链。
Apple 在安全公告里正式署名 “in collaboration with Claude and Anthropic Research”,这件事的意义远超技术本身。它意味着全球市值最高的科技公司,愿意在官方安全记录中承认:这个漏洞是 AI 帮忙找到的。
这对整个安全行业是一个信号。过去安全团队对 AI 工具的态度是”可以试试看,但不能信任结果”。现在 Apple 给了一个不同的模板:”AI 发现了漏洞,我们验证后确认并修复。”
信任链的建立通常需要一个标杆事件。CVE-2026-28952 就是这个标杆。
站在产品经理的角度,这个趋势最值得关注的不是某个具体的漏洞,而是 两个赛道之间的资源错配。
赛道一(AI 安全性)目前是资本和人才的绝对重心。Copilot、ChatGPT、Claude 等所有消费级 AI 产品都在堆安全对齐的投入。OpenAI 据说安全团队超过 200 人,Anthropic 的核心叙事就是”安全的 AI”。
赛道二(AI 安全审计)的投入相比之下少得可怜。但这才是效率更高的方向。
原因很简单:防守方的收益是确定的,攻击面的收益是概率性的。
每发现一个高危 CVE,影响的可能是数亿设备。而每堵住一个 prompt injection 漏洞,影响的只是一个产品的使用边界。从 ROI 看,用 AI 做安全审计的杠杆率远高于用 AI 做安全防御。
这不是说防御不重要。而是说,在资源有限的情况下,当前市场的资源分配可能不是最优的。
对创业公司来说,这意味着一个清晰的机会窗口:做 AI 安全审计工具的公司,目前竞争格局远未定型。做 AI 安全防御的公司,已经在和 OpenAI、Anthropic、Google 直接竞争了。
如果把视角再拉高一层,这件事其实指向一个更有意思的问题:当 AI 同时成为安全的攻击者和防御者,博弈的均衡点在哪里?
传统安全领域有一个基本假设:攻击者永远比防御者有优势,因为攻击者只需要找到一个漏洞,防御者需要堵住所有漏洞。这就是著名的”不对称优势”。
但 AI 可能正在改变这个不对称。
当防御方也用 AI 做漏洞发现时,”找漏洞”的成本大幅下降。过去需要一个资深安全研究员花几周才能找到的漏洞,AI 可能在几小时内就能定位到可疑区域。防御方的”堵住所有漏洞”不再需要人工逐一检查——AI 可以做第一轮扫描,人类研究员做第二轮验证。
这就是 Apple 安全公告展示的流程:AI 发现 → 人类验证 → 官方确认。一个高效的”人机协作审计”模式。
如果这个模式被广泛采用,攻击者的不对称优势会被大幅压缩。不是因为防御方变得更强了,而是因为 找漏洞的成本结构变了。
当然,攻击者也会用 AI。但防御方有一个结构性优势:他们有代码。 白盒审计永远比黑盒攻击信息更充分。AI 在白盒环境下的代码理解能力,天然对防御方更有利。
回到这两件事本身。
Copilot 文件泄露告诉我们:AI 工具的权限设计还有很长的路要走。每多给 AI 一个权限,attack surface 就多一个维度。这不是模型能力的问题,是产品架构的问题。
Claude 发现 macOS 内核漏洞告诉我们:AI 在安全审计领域的潜力,可能被严重低估了。当全球市值最高的公司愿意在官方记录中承认 AI 的贡献,这不是技术突破,是信任突破。
同一周,两个方向,两条赛道。AI 安全正在从”怎么让 AI 不闯祸”的单线叙事,变成”怎么让 AI 既不闯祸又帮忙抓坏人”的双线叙事。
后者才是真正的大机会。
关注 SomethingAI 公众号
每日 AI 趋势日报,深度选题分析,独立开发思考
微信搜索「SomethingAI」关注