essay

WWDC26:Apple AI 的新设计,不是更会聊天,而是把系统变成可行动的语境

WWDC26 的 Apple Intelligence、Siri AI、App Intents、Foundation Models 与 Liquid Glass,真正值得看的不是功能数量,而是 Apple 试图把 AI 设计成系统级语境、行动边界和信任机制。

WWDC26 之后,讨论 Apple AI 很容易落到一个熟悉问题:Siri AI 到底追上 ChatGPT / Gemini / Claude 了吗?

但我觉得这不是最好的问题。

这次真正值得看的,不是 Apple 有没有发布一个“最强聊天机器人”,而是它正在重新定义 AI 在操作系统里的设计位置:AI 不再只是一个 app、一个浮窗、一个问答入口,而是系统对当前屏幕、个人语境、app 能力、隐私边界和可执行动作的统一理解层。

如果说 WWDC24 的 Apple Intelligence 是一份愿景,WWDC25 的 Foundation Models framework 是开发者入口,那么 WWDC26 更像是 Apple 对外补上了一块关键拼图:AI 应该怎样以 Apple 的方式进入日常系统。

新闻摘要:Siri AI 是入口,但不是全部

Apple 在 2026 年 6 月 8 日的 WWDC26 新闻稿里发布了新一代 Apple 智能和 Siri AI。官方强调,新 Siri 会深度集成在 iPhone、iPad、Mac、Apple Watch 和 Vision Pro 中,利用个人情境理解,在信息、邮件、照片等内容中搜索,并通过更系统化的 app 操作完成跨 app 任务。

几个重点值得拆开看:

第一,Siri AI 可以理解屏幕内容。用户可以围绕当前正在看的照片、网页、信息或 app 内容提问和行动。

第二,它把个人语境和系统搜索连接起来。Siri 不只是回答一般知识,而是能在用户自己的邮件、照片、信息和 app 内容里找线索。

第三,它有专门的 Siri app,可以保留对话历史,并通过 iCloud 在设备间同步。这意味着 Siri 从“无状态语音命令”变成了一个可持续的个人 AI 工作空间。

第四,Apple 明确把发布时间做了分层:iOS 27、iPadOS 27、macOS 27、watchOS 27 和 visionOS 27 的新软件功能会在今秋提供;Siri AI 则会在今年晚些时候以 Beta 形式面向设备语言设置为英语的用户提供。中国大陆仍受可用性与监管限制。

这说明 Apple 仍然谨慎。它不是把所有能力一次性推给全球用户,而是先把体验、语言、地区和设备范围控制住。

真正的新设计:AI 不是更聪明的按钮,而是系统语境

我对这次 WWDC26 的核心判断是:Apple 在设计 AI 时,仍然没有走“万能聊天框”的路线。

它更像是在做三层结构:

第一层是语境层。系统知道你当前在看什么、你自己的内容在哪里、某个对象属于哪个 app、哪些信息可以被检索。

第二层是行动层。系统知道哪些 app 能做什么、哪些任务可以被 App Intents 表达、哪些动作需要确认、哪些动作必须停下来让人接管。

第三层是信任层。模型在哪里跑、数据是否离开设备、Private Cloud Compute 如何处理更复杂请求、开发者如何测试这些行为。

这和 OpenAI、Google、Anthropic 的产品气质都不一样。那些产品更擅长从对话出发,逐渐接入工具。Apple 则是从系统出发,把对话包进操作系统已有的对象、权限和界面秩序里。

这也是 Apple AI 最可能成功的地方。它不需要成为最会聊天的 AI,它需要成为最懂当前设备状态、最懂用户私人上下文、也最知道什么时候不能乱动的 AI。

App Intents:Apple 把开发者能力变成 AI 可调用的结构

WWDC26 的 Apple Intelligence 开发者指南里,有一句非常关键:App Intents framework 是 app 连接 Apple Intelligence 和 Siri AI 的方式。

这句话的产品含义很大。

过去很多 app 把能力藏在页面里:按钮、菜单、表单、流程。AI 很难可靠操作这些东西,因为它只能“看见界面”,却不知道业务对象、权限边界、动作副作用和结果状态。

App Intents 的价值,是让 app 把能力结构化表达出来:这个 app 里有什么实体、有哪些动作、动作需要哪些参数、结果是什么、哪些内容可以进 Spotlight 语义索引、哪些视图元素可以通过 View Annotations 变成可指代对象。

换句话说,Apple 不是让 Siri 去“猜”app 怎么用,而是要求开发者把 app 变成可理解、可索引、可调用、可测试的系统组件。

这对 iOS / macOS 开发者的影响会很大。未来优秀的 Apple 平台 app,不只是 UI 做得漂亮,也要把核心业务能力写成系统能理解的 intent graph。

更直接一点说:如果你的 app 只有页面,没有 intent;只有按钮,没有实体;只有流程,没有可验证动作,那么它在 Apple Intelligence 时代会越来越像一个黑盒。

Foundation Models:Apple 在补齐模型底座,但仍然服务于系统设计

Apple 机器学习团队同时发布了 第三代 Apple Foundation Models。官方披露,这一代模型由五个模型组成,并与 Google 合作构建,覆盖端侧模型和运行在 Private Cloud Compute 上的服务端模型。

这里最值得注意的不是“Apple 终于也有大模型了”,而是模型被明确分成系统用途:

  • AFM 3 Core 是下一代 30 亿参数端侧稠密模型。
  • AFM 3 Core Advanced 是更强的端侧多模态模型,用稀疏架构在请求时激活部分参数,服务更强语音、听写和理解能力。
  • AFM 3 Cloud、ADM 3 Cloud 和 AFM 3 Cloud Pro 承接更复杂的服务端推理、图像能力和 agentic tool use。

这说明 Apple 没有把所有问题都押在一个通用大模型上。它仍然在做设备分层、任务分层、隐私分层和成本分层。

这种设计很 Apple:不是追求单点模型叙事,而是让模型成为系统工程的一部分。

但这也暴露了一个现实问题。Apple 的 AI 体验高度依赖硬件、语言、地区、云端合规和开发者适配。它可能会比纯云端 AI 更稳、更私密、更贴近系统,但也更难同时做到全球快速一致。

所以 Apple AI 的短期风险不是“有没有模型”,而是“体验能不能跨设备、跨语言、跨地区、跨第三方 app 保持一致”。

Liquid Glass 和 AI:这不是皮肤,而是注意力设计

WWDC26 另一个容易被低估的点,是 Liquid Glass 的继续演进。

Apple 在开发者新闻稿里提到,Liquid Glass 今年在清晰度、个性化与统一性上继续提升,并加入透明度滑块,用户可以调整视觉体验,同时系统会根据辅助功能设置动态适配。

这听起来像视觉设计,但放到 AI 里看,意义会更深。

AI 进入系统后,界面最大的挑战不是“如何更炫”,而是“如何让用户知道系统正在理解什么、准备做什么、哪些内容被引用、哪些动作还没执行”。

Liquid Glass 如果只是拟物透明,那会很快变成审美疲劳。但如果它被用来表达上下文层级、临时状态、AI 正在关注的对象、可确认的动作边界,它就可能成为一种新的注意力设计语言。

我觉得 Apple 的机会在这里:把 AI 的不可见推理,转译成用户可感知的界面状态。

这也是为什么 Apple 不适合做一个到处弹出的 AI 气泡。真正 Apple 式的 AI 应该更像系统材质的一部分:在需要时浮现,在执行前确认,在完成后退回背景。

好的 AI 交互不应该让用户感觉“我在和一个机器人打字”,而应该让用户感觉“当前这个系统更懂我正在做什么,但它仍然尊重我的控制权”。

Xcode 27:Apple 也承认 Agent 是新的开发工作流

Apple 还发布了新的开发者工具方向。根据 Apple 开发者工具新闻稿,Xcode 27 把模型和智能体能力整合进开发者工作流,支持交互式规划、多轮问答、Markdown 渲染、代码修改与预览对照,并提供让编码智能体自行验证代码的工具,例如运行测试、在 Playgrounds 里试验、用预览检查视觉变化、通过 Device Hub 与模拟器交互。

这说明 Apple 在 coding agent 上的判断也变了。过去 Xcode 更像一个 IDE;现在它开始变成“开发者与 agent 协作的操作台”。

更有意思的是,Apple 提到 Xcode 插件可以通过 Model Context Protocol 调用工具,也可以连入兼容智能体客户端协议的任意智能体,GitHub 和 Figma 率先支持同步安装。

这不是小功能。它意味着 Apple 不再把开发者 AI 完全关在自家模型里,而是让 Xcode 成为多 agent、多工具、多上下文协作的原生容器。

我的判断是:Apple 在消费端 AI 上会更保守,在开发者端反而可能会更开放。因为开发者工作流天然需要外部工具、模型选择和可验证执行。

我的观点:Apple AI 的胜负手是“可行动的克制”

这次 WWDC26 让我更确定一件事:Apple 的 AI 不会通过“更像 ChatGPT”赢。

它真正的胜负手,是能不能把 AI 设计成一种可行动的克制。

“可行动”意味着它不能只会总结和回答。它必须能理解屏幕、找到用户内容、调用 app、跨设备延续上下文、完成真实任务。

“克制”意味着它不能把所有东西都自动化。它必须知道权限、确认、撤回、隐私、语言可用性、地区差异和错误责任。

这两者放在一起,才是 Apple 式 AI 的难点。

如果只强调克制,Siri 会继续像过去那样不够有用;如果只强调行动,它就会变成另一个可能误操作、误承诺、误理解的通用 agent。Apple 要赢,必须在中间做出一套让普通用户放心的行动设计。

所以我认为 WWDC26 的重点,不是 Apple 宣布了 Siri AI 这个名字,而是 Apple 开始把 AI 的产品设计从“模型能力展示”拉回“系统行为设计”。

这对整个行业也有启发。

下一阶段 AI 产品的竞争,不会只看模型谁更聪明,而会看谁能回答这些更难的问题:

  • AI 看到的上下文从哪里来?
  • 它能调用哪些动作?
  • 动作执行前如何确认?
  • 结果如何解释和撤回?
  • 隐私边界如何被用户理解?
  • 第三方开发者如何把能力安全暴露出来?
  • UI 如何表达 AI 的关注、等待、风险和完成状态?

这些问题不像 benchmark 那样容易传播,但它们决定 AI 能不能进入日常系统。

结论

WWDC26 的 Apple AI,表面上看是 Siri AI、Foundation Models、App Intents、Xcode agent 和 Liquid Glass 的组合。

但更深一层看,它是在回答一个行业问题:当 AI 从聊天框进入操作系统,设计应该是什么样?

Apple 的答案是:AI 应该理解语境,但不能吞掉语境;AI 应该执行动作,但不能越过权限;AI 应该变聪明,但不能让用户失去控制感。

这条路不会最快,也不一定最显眼。它会被地区可用性、语言支持、开发者适配和 Siri 历史包袱拖慢。

但如果 Apple 能把这套系统级 AI 设计做实,它的价值会非常大。因为真正稀缺的不是又一个会说话的模型,而是一个能在私人设备、真实 app 和复杂日常任务之间可靠行动的智能层。

这才是 WWDC26 最值得关注的地方。

参考