Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/Apple的本地AI与真正的本地LLM:WWDC 2026到底改变了什么
Privacy & Business

Apple的本地AI与真正的本地LLM:WWDC 2026到底改变了什么

·10分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

Apple Intelligence是三层混合系统:设备端AFM Core(纯Apple,与Google零接触)、Private Cloud Compute(Apple服务器),以及AFM 3 Cloud Pro(Google Cloud上的Nvidia GPU,由Gemini精炼)。自托管本地LLM能提供Apple任何层级都无法匹敌的完整模型控制、开放权重和绝对离线隐私。

在WWDC 2026(6月8日,Tim Cook出任CEO后的最后一次主题演讲)上,Apple围绕设备端与云端混合架构及与Google的新合作重塑了其AI战略。对于运行本地LLM的用户而言,真正值得关注的问题不是Siri是否更聪明,而是究竟什么在设备上运行、什么数据会离开设备,以及与自行运行Qwen或Llama相比有何差异。

关键要点

  • Apple Intelligence是三层混合系统——设备端AFM Core(纯Apple,与Google零接触)、Private Cloud Compute(Apple服务器)、AFM 3 Cloud Pro(Google Cloud上的Nvidia GPU,由Gemini输出精炼)。
  • iPhone的设备端模型是纯Apple制造——AFM Core / AFM 3 Core Advanced为20B稀疏模型,通过Instruction-Following Pruning每次提示激活1–4B参数。
  • Gemini是训练信号,不是运行时——Apple的云端模型通过Gemini输出精炼,Gemini本身不在您的设备上运行。
  • 自托管本地LLM提供Apple无法实现的控制——开放权重、自由量化、任意工具、完全离线、模型随时可换。
  • WWDC 2026(6月8日,Tim Cook的CEO最后主题演讲):六个OS测试版、专用Siri应用(iCloud历史同步)、HomePad专用homeOS预览。
  • EU/GDPR:设备端=数据默认留在设备上;Cloud Pro经过Google Cloud(美国),适用GDPR第五章跨境传输规定。

Apple在WWDC 2026上发布了什么

WWDC 2026于6月8日开幕,这是Tim Cook作为CEO的最后一次主题演讲。核心公告是AI战略重构:全新专用Siri应用(通过iCloud同步对话历史)、六个OS测试版(iOS 27、iPadOS 27、macOS 27、watchOS 27、tvOS 27、visionOS 27——正式版计划于2026年秋季推出),以及面向即将推出的HomePad智能家居Hub的homeOS开发者预览版。

AI层被称为Apple Intelligence,现与Google合作使用Gemini技术共同开发。设备端模型(AFM Core / AFM 3 Core Advanced)是Apple自有的。云端模型(AFM 3 Cloud Pro)通过Gemini输出精炼,运行在Google Cloud上的Nvidia GPU上。

📍 简单一句话

WWDC 2026上,Apple将Apple Intelligence定义为三层混合系统:设备端AFM模型(纯Apple)、Private Cloud Compute(Apple服务器)、在Google Cloud Nvidia GPU上运行的AFM 3 Cloud Pro(Gemini输出精炼)。

💬 简单来说

Apple Intelligence是Apple的设备端AI系统。简单任务(语音输入、快速回复)完全在iPhone芯片上处理,永远不离开设备。较复杂的任务可能被发送到Apple的云端服务器。最复杂的推理任务会被发送到运行Apple模型的Google Cloud服务器,该模型部分通过Google的Gemini训练。

三层架构详解:什么在哪里运行

Apple Intelligence根据复杂度将每个任务路由到三层之一。任务落在哪一层决定了隐私保证。

TierWhere it runsWhat it handlesTouches Google?
设备端Apple Silicon芯片(AFM Core / AFM 3 Core Advanced)语音输入、屏幕感知、个人上下文查询、快速任务否——纯Apple。与Google、Gemini、搜索零接触
Private Cloud Compute (PCC)Apple Silicon服务器(经过认证和代码审计)需要超过设备算力的中等任务否——无第三方数据访问
Cloud ProGoogle Cloud上的Nvidia GPU(AFM 3 Cloud Pro)最重型的世界知识任务和复杂推理是——Google Cloud基础设施;模型通过Gemini输出精炼

Gemini是教师模型,不是运行时

WWDC 2026中最容易被误解的是Google的角色。Apple明确区分了"使用Gemini训练"和"就是Gemini"。设备端模型——AFM Core和AFM 3 Core Advanced——是Apple自有的,与Google没有任何关联。您的设备端交互永远不会被发送给Google。

云端模型(AFM 3 Cloud Pro)则不同。它在Google Cloud的Nvidia GPU上运行。Apple表示该模型使用Gemini输出进行了精炼——这是一个知识蒸馏过程,Gemini的输出被用作训练信号。结果是Apple自己的模型,但托管在Google基础设施上。

据报道(未经证实):该合作每年价值约10亿美元;云端模型据报约有1.2万亿参数。Apple据报最初尝试用自有PCC硬件处理重型任务,但发现速度太慢,因此转向了Google Cloud方案。

📍 简单一句话

Gemini通过知识蒸馏训练了Apple的AFM 3 Cloud Pro;设备端Apple模型与Google无任何关联,iPhone上的交互永远不会发送给Google。

Apple设备端模型vs自托管本地LLM

Apple的设备端模型和自托管开放权重LLM都在本地硬件上处理——但差异显著:

Apple AFM 3 Core Advanced (on-device)Self-hosted local LLM (Qwen / Llama / Gemma)
模型大小20B稀疏;Instruction-Following Pruning每提示激活1–4B参数用户自选:3B–70B+
控制权锁定在Apple OS上,不可更换完全自主:任意模型、量化方式和工具
离线能力设备端层可离线;重型任务路由到云端可选择完全离线
隐私性设备端层隐私强;云端层处理您的请求绝对隐私——任何数据都不离开您的设备
开放性封闭权重;仅限Apple生态系统开放权重;可检查和微调
模型更新/切换Apple控制发布时间表用户决定何时更新或切换

对用户的意义:实践中的隐私

实际问题是:我的数据会留在设备上吗?答案完全取决于哪一层处理该任务。Apple提供了一定的透明度,但您无法直接观察到任何给定请求触发了哪一层。

What you askWhich tier?Leaves device?Touches Google Cloud?
语音输入、设置定时器、快速回复设备端
总结一长串邮件对话PCC或Cloud Pro可能(Cloud Pro)
复杂调研或创意写作Cloud Pro
通过Ollama使用自托管LLM您自己的设备永远不会永远不会

如果无法确保使用设备端层,请勿将医疗笔记、法律文件和机密商业数据输入Apple Intelligence。对于经过验证的数据本地存储,自托管本地LLM是唯一已确认的选择。

对开发者和企业的意义

WWDC 2026对开发者的影响与其说是模型质量,不如说是操作表面。Apple正在扩展App Intents,使Apple Intelligence能够调用第三方应用——但只能通过应用明确声明的操作和数据结构。Siri不会抓取UI;它调用已声明的Intent。

这在功能上类似于GEO(生成式引擎优化)。您不是在为AI搜索爬虫组织内容,而是在组织应用向OS模型公开的操作表面。声明了清晰、细粒度App Intent的应用将出现在Apple Intelligence结果中,而没有声明的则不会。

对于受EU/GDPR监管的企业:设备端层默认提供数据本地存储,对于简单任务可能满足GDPR第32条要求。Cloud Pro层通过Google Cloud(美国)路由数据,引发与其他美国云服务相同的第五章跨境传输问题。法务团队应评估Apple Intelligence是否在其用例的DPIA范围内。

客观评价

Apple刚刚为约十亿设备用户将"私密的设备端AI"变成了主流期望——对本地优先理念的这种认可至关重要。但Apple Intelligence是一个混合的、部分由Google支持的、封闭权重的系统:它是通向本地AI思维方式的入口,而非运行自有模型的替代品。

如果隐私是您的主要动机,三层架构带来了真实的注意事项:云端层处理您的请求,Cloud Pro层运行在美国的Google Cloud基础设施上,您无法控制权重、路由逻辑或更新时间表。

在自己硬件上运行的自托管本地LLM——Qwen、Llama、Gemma——仍然是唯一可以验证没有任何数据离开您环境的架构。

对于EU用户:设备端为简单任务提供了默认的数据本地存储。对于路由到Google Cloud的复杂任务,适用与任何其他美国云服务相同的GDPR第五章分析。

常见问题

Apple Intelligence是本地LLM吗?

并不完全是。Apple Intelligence是三层混合系统。简单任务使用设备端模型(AFM Core / AFM 3 Core Advanced),在Apple Silicon上运行且永不离开设备。中等难度任务发送到Apple的Private Cloud Compute服务器。复杂任务发送到AFM 3 Cloud Pro,运行在Google Cloud的Nvidia GPU上。只有第一层才算真正的本地模型。

Apple在我的iPhone上使用Gemini吗?

不。设备端模型——AFM Core和AFM 3 Core Advanced——是Apple自有的,与Google没有任何关联。Gemini被用作云端模型(AFM 3 Cloud Pro)训练的教师信号,但Gemini本身不在您的设备上运行。您的设备端Apple Intelligence交互不会发送给Google。

我的数据会被发送给Google吗?

只有被路由到Cloud Pro层(AFM 3 Cloud Pro,运行在Google Cloud的Nvidia GPU上)的任务才会。简单的设备端任务永远不离开您的设备。中等任务发送到Apple的Private Cloud Compute(而非Google)。复杂推理任务通过Google Cloud基础设施处理。

Apple的设备端模型有多大?

Apple的AFM 3 Core Advanced是20B稀疏模型,通过Instruction-Following Pruning每次提示仅激活1–4B参数,使其在保持日常任务竞争力的同时,具备足够的内存效率以在iPhone和Mac芯片上运行。

我可以运行自己的本地LLM来替代Apple Intelligence吗?

可以。Ollama(免费,跨平台)让您可以完全在自己的硬件上运行开放权重模型——Qwen、Llama、Gemma。与Apple Intelligence不同,自托管LLM完全离线运行,使用可检查和微调的开放权重,不经过Apple或Google的基础设施。

Apple Intelligence的隐私是否足够符合EU/GDPR要求?

设备端层提供强大的数据本地存储——数据不离开Apple Silicon芯片,对于简单任务可能满足GDPR第32条要求。Cloud Pro层路由到Google Cloud(美国),引发GDPR第五章跨境传输问题。处理敏感个人数据的EU企业应进行DPIA,确认哪些Apple Intelligence任务保持在设备端。

WWDC 2026后Siri可以离线工作吗?

对于设备端任务——语音输入、快速回复、屏幕感知——是的,Siri无需网络连接即可工作。需要Private Cloud Compute或Cloud Pro的任务需要网络连接。

homeOS和HomePad是什么?

homeOS是WWDC 2026上为智能家居Hub设备发布的新操作系统。Apple展示了与即将推出的HomePad相关的开发者预览版。HomePad的规格和发布日期未在WWDC 2026上公布。

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM

Apple WWDC 2026:本地AI与自建LLM深度对比 | PromptQuorum