essay
Android / iOS / Web 的 AI 平台战:大厂现状与短期路线
从 Google 的 Gemini Intelligence、Apple 即将到来的 Siri 重启、Microsoft 的 agent-native Windows,到 OpenAI、Meta 和 Anthropic 的跨端工作流,AI 正在重写移动端与 Web 平台的竞争逻辑。
截至 2026 年 6 月 8 日,Android、iOS 和 Web 上的 AI 竞争已经不再是“谁有一个更聪明的聊天机器人”。
更准确地说,各家大厂都在抢同一个位置:成为用户意图进入系统、应用、浏览器和工作流的默认入口。
Android 想把 Gemini 变成系统智能层;Apple 需要用 iOS 27 和新版 Siri 证明 Apple Intelligence 不是半成品;Microsoft 想把 Windows 和 Web 变成 agent-native 的企业工作台;OpenAI 正在把 Codex 从开发工具推进到移动端和 Web 工作流;Meta 则从 WhatsApp、Instagram、Messenger 这些聊天入口切进商业交易;Anthropic 更像是在强化 Claude Code、Claude Design 和企业工作流里的高质量 agent 能力。
这是一场平台战,不只是模型战。
Google:Android 正在从 OS 变成 Intelligence System
Google 当前最清晰。
在 2026 年 5 月 12 日的 The Android Show: I/O Edition 2026 上,Google 直接把 Android 的方向说成:从 operating system 变成 intelligence system,把用户意图转成行动。
核心产品是 Gemini Intelligence。Google 表示这些能力会从最新 Samsung Galaxy 和 Google Pixel 设备开始,在今年夏天分批推出,并在今年晚些时候扩展到手表、汽车、眼镜和笔记本等 Android 设备。
这说明 Google 的短期路线不是只做一个 Gemini app,而是把 Gemini 放进系统层:
- 在 Android 里做跨 app 的多步骤自动化。
- 用智能 autofill、网页总结、信息提取和表单处理减少用户操作。
- 用 Rambler 把自然口语整理成更合适的消息。
- 用自然语言生成自定义 widget。
- 通过 Android XR、智能眼镜、车机和 Googlebook,把 Gemini 扩展到多形态设备。
Web 端也在跟进。Google 5 月 12 日宣布 Gemini in Chrome on Android,包括 auto browse。Chrome 可以理解当前网页、总结内容、回答问题、连接 Google apps,并在用户确认后处理一些浏览器任务。Google 说这些功能会在 6 月底开始面向美国部分 Android 12+ 设备推出,auto browse 则面向 AI Pro 和 Ultra 订阅用户。
我的判断是:Google 的优势在于 Android、Chrome、Search、Gmail、Calendar、Maps、YouTube、Workspace 是连在一起的。Gemini 不需要成为一个独立 app 才有价值,它可以变成“系统里的动作胶水”。
短期看,Android 开发者需要关注三件事:
- App 是否能被系统智能层理解和调用。
- 数据、权限、deep link、intent、widget、notification 是否能成为 AI 可执行的入口。
- 应用体验是否从“用户手动点流程”转向“用户表达意图,系统协调流程”。
Android 的 AI 机会,不只是接一个模型 API,而是让 app 变成 Gemini Intelligence 能安全操作的一部分。
Apple:iOS 的关键是把 Siri 从入口修成执行层
Apple 的位置最尴尬,也最关键。
官方已经明确,Apple Intelligence 会通过 Siri、App Intents、App Entities 等机制,把系统能力和第三方 app 动作连接起来。Apple 的 Siri for developers 页面写得很清楚:Apple Intelligence 会增强 Siri 的 action capabilities,开发者可以通过预定义和预训练的 App Intents,让 Siri 在 app 里执行动作,并让这些动作出现在 Spotlight、Shortcuts、Control Center 等位置。页面也提到,Siri 的 personal context understanding、onscreen awareness 和 in-app actions 仍在开发中,会在未来软件更新中提供。
这句话其实暴露了 Apple 当前的状态:方向正确,但交付节奏落后。
截至 2026 年 6 月 8 日,WWDC 2026 正在开场前后,iOS 27 和新版 Siri 是市场关注焦点。外界普遍预期 Apple 会展示更强的 AI Siri、Apple Intelligence 更新,甚至可能开放更多第三方模型或 AI 服务选择。但在官方 keynote 完整落地前,这些仍应该被视为预期,而不是已经确定的事实。
Apple 的短期任务很明确:
- 让 Siri 真正理解屏幕、个人上下文和 app 内对象。
- 让 App Intents 从“快捷动作入口”升级成 AI 可以可靠执行的 action graph。
- 通过 Private Cloud Compute 和 on-device models 保住隐私叙事。
- 给开发者更清晰的 Siri / Apple Intelligence API 边界。
- 把 iPhone、iPad、Mac、Watch、Vision Pro 的 AI 体验统一起来。
我对 Apple 的判断是:它不一定要在通用模型能力上赢 Google 或 OpenAI,但必须在“可信、私密、系统级、可预测”上赢。
如果新版 Siri 只是更会聊天,意义有限;如果它能稳定执行 app 内动作、理解用户当前屏幕、知道哪些动作需要确认、哪些信息不能离开设备,那 iOS 仍然会是最有价值的 AI 分发入口之一。
对 iOS 开发者来说,短期最值得补的不是“接入某个 LLM SDK”,而是:
- App Intents 是否覆盖核心任务。
- App Entities 是否把业务对象表达清楚。
- Shortcuts、Spotlight、Control Center、widgets 是否能承接用户意图。
- 隐私权限和敏感动作是否能被清晰解释和确认。
iOS 的 AI 化,会先奖励那些把 app 业务能力结构化暴露给系统的团队。
Microsoft:Web 与 Windows 正在合并成 Agent 工作台
Microsoft 的路线和 Apple、Google 不一样。它不是从手机入口开始,而是从开发者、企业、Windows、Microsoft 365 和 Azure Foundry 开始。
在 Microsoft Build 2026 上,Microsoft 发布了 Microsoft IQ、Web IQ、Scout、MAI-Thinking-1、MAI-Code-1、Agent 365、ASSERT、Agent Control Specification 等一整套 agent 平台能力。
这套东西的关键词不是“聊天”,而是 context、governance、local execution 和 model diversity。
Microsoft 还在 Windows Developer Blog 里强调 Windows as the trusted platform for development。几个信号很强:
- Windows 365 for Agents 已 GA,用 Cloud PC 给 computer-using agents 执行企业工作流。
- Aion 1.0 Instruct 和 Aion 1.0 Plan 等 on-device SLM 将在未来几个月提供,支持本地 agentic capability。
- Windows AI APIs 会扩展到更多 Windows 11 PCs,覆盖 CPU、GPU、NPU。
- Project Solara 被定位为 agent-first 体验平台。
- Surface RTX Spark Dev Box、DGX Station for Windows 等硬件面向本地 AI 和 agent workload。
- GitHub Copilot CLI 未来会支持把任务选择性委派给本地模型 subagents。
这对 Web 开发者很重要。Microsoft 的 Web 不是单纯浏览器网页,而是 Microsoft 365、Teams、Foundry、GitHub、Windows、Cloud PC 组成的工作流 Web。它要解决的是企业里的真实问题:数据在哪里、权限在哪里、agent 在哪里运行、谁能观察和治理它。
我的判断是:Microsoft 不会在消费端手机入口赢 Google 或 Apple,但它可能在企业 agent control plane 上领先。
短期规划会继续围绕:
- 更多本地模型和 Windows AI API。
- 更强的 agent sandbox、execution container 和 Cloud PC 执行环境。
- Web IQ / Work IQ / Fabric IQ 这类上下文层。
- GitHub Copilot、VS Code、Windows Terminal、M365 Copilot 的统一。
对 Web / enterprise 开发者来说,Microsoft 路线的启发是:AI 应用不只是前端加聊天框,而是要设计 agent 的身份、权限、上下文、执行环境、审计和回滚。
OpenAI:Codex 从开发者工具变成跨端工作流入口
OpenAI 最近几周的 Codex 更新,和 Android / iOS / Web 都有关。
5 月 14 日,OpenAI 发布 Work with Codex from anywhere,宣布 Codex 进入 ChatGPT mobile app,面向 iOS 和 Android 预览推出。用户可以从手机查看线程、审批命令、看 terminal output、diff、测试结果和截图,也可以连接运行 Codex 的 laptop、devbox 或 remote environment。
6 月 2 日,OpenAI 又发布 Codex for every role, tool, and workflow,宣布 role-specific plugins、Sites 和 annotations。OpenAI 提到 Codex 周活已经超过 500 万,非开发者约占 20%,而且增长更快。Sites 可以把想法、分析和计划变成 dashboard、planner、review workspace、project board、lightweight tools,并通过 URL 在 workspace 里共享。
这说明 OpenAI 的平台路线很明显:
- iOS / Android:手机变成 agent 监督和审批入口。
- Web:Codex Sites 变成可分享的交付画布。
- Desktop / CLI / IDE:继续作为真实代码和本地环境执行层。
- Workspace:插件、annotations、共享 agents 把 Codex 推向团队工作流。
OpenAI 不控制 Android 或 iOS 系统层,但它可以控制“工作流层”。它的短期目标不是替代 App Store 或 Play Store,而是让用户在 ChatGPT / Codex 里创建、修改、发布、审批工作产物。
对开发者来说,OpenAI 的机会在 Web:小型内部工具、dashboard、review workspace、prototype、数据分析页面会越来越多由 agent 生成。真正的竞争不是“能不能生成页面”,而是生成后的修改、权限、状态、数据连接和长期维护。
Meta:从社交入口切入商业 Agent
Meta 的 AI 路线更像“把 Agent 放进交易场景”。
6 月 3 日,Meta 发布 Meta Business Agent,宣布把 Business Agent 扩展到全球不同规模商家,覆盖 WhatsApp、Messenger 和 Instagram。它可以回答业务问题、推荐商品、预约、筛选线索、决定何时转人工、帮助成交。Meta 还说,超过 100 万家企业已经在 WhatsApp 和 Messenger 上使用 Business Agent,三大消息平台每天有超过 10 亿条人与商家的活跃对话线程。
这不是 Android/iOS/Web 的系统层竞争,但它是移动端和 Web 上极强的应用层入口竞争。
Meta 不需要拥有 OS。它拥有用户关系链、商家消息入口、广告系统、内容分发和交易触点。Business Agent 的短期规划也很清楚:从客服问答扩展到市场研究、商品洞察、日程连接、竞争情报和更大范围的日常运营。
对移动和 Web 开发者来说,Meta 的信号是:未来很多 AI 功能不会以 app 的形式出现,而会嵌在对话入口里。商家不想打开十个 SaaS 工具,只想在 WhatsApp / Instagram / Messenger 里把客户处理掉。
这会推动一种新的产品形态:AI-native commerce messaging。
Anthropic:不是平台入口,但在提高高质量工作流标准
Anthropic 没有 Android、iOS、Windows 或社交平台入口,但它在高质量 agent 工作流上很强。
Claude Code、Claude Design、Claude Artifacts 和 API 的组合,正在服务另一类用户:设计师、开发者、产品团队、知识工作者。他们不一定需要系统级入口,而是需要高质量推理、代码修改、设计原型、文档生成和任务协作。
从短期看,Anthropic 的重点可能不是抢 OS,而是继续强化:
- Claude Code 的复杂任务执行和上下文管理。
- Claude Design 到 Claude Code 的设计到实现链路。
- 企业可控的 Claude workflows。
- 更安全、更可解释的 agent 能力。
这条路和 OpenAI 有重叠,但 Anthropic 更强调“高信任工作流”。如果 OpenAI 更像要变成工作流 OS,Anthropic 更像要成为高质量 agent 的执行引擎。
总结:未来一年的平台分工
如果把各家放在一张地图上,大概是这样:
- Google:Android + Chrome + Gemini,目标是让 AI 成为系统和浏览器里的默认动作层。
- Apple:iOS + Siri + App Intents + Private Cloud Compute,目标是把 AI 做成可信的个人系统入口。
- Microsoft:Windows + Web + M365 + Foundry + GitHub,目标是企业 agent 的开发、运行和治理平台。
- OpenAI:ChatGPT + Codex + mobile + Sites,目标是跨端工作流和可生成交付物。
- Meta:WhatsApp + Instagram + Messenger,目标是把 Agent 嵌进商业对话和交易。
- Anthropic:Claude Code / Design / API,目标是高质量、可控、适合专业工作的 agent 执行层。
我最强的判断是:Android / iOS / Web 接下来不是简单“加 AI 功能”,而是平台的交互范式会变。
过去 app 的核心是页面和按钮;现在平台会越来越关心 intent、context、permission、action、verification。
这对工程师意味着,未来一年值得补的能力不是单纯 prompt engineering,而是:
- 把 app 能力结构化:intent、entity、deep link、schema、API、权限边界。
- 把 AI 动作可验证:确认、日志、回滚、测试、人工接管。
- 把 UI 从页面流改成任务流:让用户表达目标,而不是手动完成每一步。
- 把跨端状态设计好:手机是审批入口,Web 是工作画布,桌面/云端是执行环境。
- 把隐私和成本当成产品能力,而不是上线后的补丁。
AI 在 Android / iOS / Web 上的下一阶段,不是“谁把聊天框放得更深”,而是谁能把模型、系统能力、应用数据和用户控制整合成可靠的行动层。
这也是我觉得移动端和 Web 工程师必须关注这波变化的原因:AI 不只是新 SDK,它正在改写平台本身。
参考
- Google: A smarter, more proactive Android with Gemini Intelligence
- Google: Bringing the best of Gemini in Chrome to Android
- Apple Developer: Siri for developers
- Microsoft Build 2026: Be yourself at work
- Windows Developer Blog: Furthering Windows as the trusted platform for development
- OpenAI: Work with Codex from anywhere
- OpenAI: Codex for every role, tool, and workflow
- Meta: Be There for Every Customer With Meta Business Agent