Startseite/Lokale LLMs/Apples On-Device-KI vs. echte lokale LLMs: Was WWDC 2026 wirklich geändert hat

Privacy & Business

Apples On-Device-KI vs. echte lokale LLMs: Was WWDC 2026 wirklich geändert hat

Name: PromptQuorum
Availability: PreOrder

Aktualisiert: 13. Juni 2026·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Apple Intelligence ist ein dreistufiges Hybrid-System: On-Device AFM Core (reines Apple, kein Google), Private Cloud Compute (Apple-Server) und AFM 3 Cloud Pro (Nvidia-GPUs in Google Cloud, mit Gemini verfeinert). Selbst gehostete lokale LLMs bieten volle Modellkontrolle, offene Gewichte und absolute Offline-Privatsphäre, die kein Apple-Tier erreicht.

Auf der WWDC 2026 (8. Juni, Tim Cooks letzter Keynote als CEO) hat Apple seine KI-Strategie um eine hybride On-Device- und Cloud-Architektur sowie eine neue Google-Partnerschaft neu aufgebaut. Für alle, die lokale LLMs betreiben, lautet die entscheidende Frage nicht, ob Siri intelligenter wurde — sondern was genau auf dem Gerät läuft, was es verlässt, und wie das im Vergleich zum Betrieb von Qwen oder Llama auf eigener Hardware aussieht.

Apples On-Device-KI vs. echte lokale LLMs: Was WWDC 2026 wirklich geändert hat

Wichtigste Erkenntnisse

Apple Intelligence ist ein dreistufiges Hybrid — On-Device AFM Core (reines Apple, null Google), Private Cloud Compute (Apple-Server) und AFM 3 Cloud Pro (Nvidia-GPUs in Google Cloud, mit Gemini verfeinert).
Das On-Device-Modell Ihres iPhones ist reines Apple — AFM Core / AFM 3 Core Advanced ist 20B Sparse, aktiviert 1–4B Parameter pro Prompt via Instruction-Following Pruning.
Gemini ist ein Lehrsignal, nicht die Laufzeit — Apples Cloud-Modell wurde mit Gemini-Ausgaben verfeinert; Gemini läuft nicht auf Ihrem Gerät.
Selbst gehostete lokale LLMs bieten Kontrolle, die Apple nicht kann — offene Gewichte, freie Quantisierung, beliebige Tools, vollständig offline, Modell austauschbar.
WWDC 2026 (8. Juni, Tim Cooks letzte Keynote): sechs OS-Betas, dedizierte Siri-App mit iCloud-Verlauf, homeOS-Vorschau für HomePad.
EU/DSGVO: On-Device = Datenspeicherung standardmäßig auf dem Gerät; Cloud Pro leitet an Google Cloud (USA) weiter — Kapitel-V-Transfer-Fragen anwendbar.

Was Apple auf der WWDC 2026 angekündigt hat

Die WWDC 2026 begann am 8. Juni mit Tim Cooks letzter Keynote als CEO. Im Mittelpunkt stand eine neu ausgerichtete KI-Strategie: eine neue dedizierte Siri-App mit iCloud-synchronisiertem Gesprächsverlauf, sechs OS-Versionen in der Beta (iOS 27, iPadOS 27, macOS 27, watchOS 27, tvOS 27, visionOS 27 — vollständige Markteinführung für Herbst 2026 geplant) sowie eine homeOS-Entwicklervorschau für das kommende HomePad Smart-Home-Hub.

Die KI-Schicht heißt Apple Intelligence und wurde nun gemeinsam mit Google unter Verwendung von Gemini-Technologie entwickelt. Die On-Device-Modelle (AFM Core / AFM 3 Core Advanced) stammen von Apple selbst. Das Cloud-Modell (AFM 3 Cloud Pro) wurde mit Gemini-Ausgaben verfeinert und läuft auf Nvidia-GPUs in Google Cloud.

📍 In einem Satz

Auf der WWDC 2026 präsentierte Apple Apple Intelligence als dreistufiges Hybrid: On-Device AFM-Modelle (reines Apple), Private Cloud Compute (Apple-Server) und AFM 3 Cloud Pro auf Nvidia-GPUs in Google Cloud (mit Gemini verfeinert).

💬 In einfachen Worten

Apple Intelligence ist Apples KI-System. Einfache Aufgaben (Diktat, schnelle Antworten) laufen vollständig auf dem iPhone-Chip und verlassen das Gerät nie. Schwerere Aufgaben können an Apple-eigene Cloud-Server weitergeleitet werden. Die komplexesten Reasoning-Aufgaben gehen an einen Google-Cloud-Server, auf dem ein Apple-Modell läuft, das teilweise mit Googles Gemini trainiert wurde.

Die Drei-Stufen-Architektur: Was wo läuft

Apple Intelligence leitet jede Aufgabe je nach Komplexität durch eine von drei Stufen. Welche Stufe eine Aufgabe trifft, bestimmt die Datenschutzaussage.

Tier	Where it runs	What it handles	Touches Google?
On-Device	Apple Silicon Chip (AFM Core / AFM 3 Core Advanced)	Diktat, Bildschirmerkennung, persönliche Kontextabfragen, schnelle Aufgaben	Nein — reines Apple. Kein Google-Code, kein Gemini, keine Search-Beteiligung
Private Cloud Compute (PCC)	Apple Silicon Server (bestätigt, Code-geprüft)	Mittelschwere Aufgaben, die mehr Rechenleistung erfordern	Nein — kein Drittanbieter-Datenzugriff
Cloud Pro	Nvidia-GPUs in Google Cloud (AFM 3 Cloud Pro)	Schwerste Weltwissen-Aufgaben und komplexes Reasoning	Ja — Google Cloud Infrastruktur; Modell mit Gemini-Ausgaben verfeinert

Apple Intelligence leitet Aufgaben durch drei Stufen: On-Device AFM Core (kein Google-Kontakt), Private Cloud Compute auf Apples eigenen Servern (ebenfalls kein Google) und AFM 3 Cloud Pro auf Nvidia-GPUs in Google Cloud.

Gemini ist ein Lehrer, nicht das Laufzeitmodell

Der am häufigsten missverstandene Teil der WWDC 2026 ist die Google-Beziehung. Apple unterscheidet zwischen 'mit Gemini trainiert' und 'ist Gemini'. Die On-Device-Modelle — AFM Core und AFM 3 Core Advanced — stammen von Apple und haben keinerlei Google-Beteiligung. On-Device-Interaktionen gelangen nie zu Google.

Das Cloud-Modell (AFM 3 Cloud Pro) ist anders. Es läuft auf Nvidia-GPUs in Google Cloud. Apple gibt an, das Modell wurde mit Gemini-Ausgaben verfeinert — ein Knowledge-Distillation-Prozess, bei dem Geminis Ausgaben als Trainingssignal dienten. Das Ergebnis ist Apples eigenes Modell, aber auf Google-Infrastruktur gehostet.

Berichtet (unbestätigt): Die Partnerschaft soll ca. 1 Mrd. USD/Jahr wert sein; das Cloud-Modell soll etwa 1,2T Parameter haben. Apple soll zunächst eigene PCC-Hardware für schwere Aufgaben versucht haben, diese aber als zu langsam befunden haben, woraufhin die Google-Cloud-Lösung entwickelt wurde.

📍 In einem Satz

Gemini trainierte Apples AFM 3 Cloud Pro via Knowledge Distillation; die On-Device-Modelle haben keinerlei Google-Beteiligung und iPhone-Interaktionen gelangen nie zu Google.

Apples On-Device-Modell vs. ein selbst gehosteter lokaler LLM

Apples On-Device-Modell und ein selbst gehosteter Open-Weight-LLM verarbeiten beide auf lokaler Hardware — aber die Unterschiede sind erheblich:

	Apple AFM 3 Core Advanced (on-device)	Self-hosted local LLM (Qwen / Llama / Gemma)
Modellgröße	20B Sparse; aktiviert 1–4B Parameter/Prompt (Instruction-Following Pruning)	Ihre Wahl: 3B–70B+
Kontrolle	An Apple OS gebunden; nicht austauschbar	Vollständig: beliebiges Modell, Quantisierung, Tool
Offline-Fähigkeit	On-Device-Stufe offline; schwere Aufgaben gehen in die Cloud	Vollständig offline nach Wahl
Datenschutz	Stark für On-Device-Stufe; Cloud-Stufen verarbeiten Ihre Anfrage	Absolut — nichts verlässt Ihre Maschine
Offenheit	Geschlossene Gewichte; nur Apple-Ökosystem	Offene Gewichte; inspizierbar und feinabstimmbar
Modell-Update / Wechsel	Apple kontrolliert den Release-Zeitplan	Sie entscheiden, wann Sie aktualisieren oder wechseln

Apple AFM 3 Core Advanced ist ein 20B-Sparse-Modell mit 1–4B aktivierten Parametern pro Prompt und geschlossenen Gewichten, im Vergleich zu selbst gehosteten lokalen LLMs (Qwen, Llama, Gemma) mit 3B–70B+ und offenen Gewichten.

Was das für Nutzer bedeutet: Datenschutz in der Praxis

Die praktische Frage: Verbleiben meine Daten auf dem Gerät? Die Antwort hängt vollständig davon ab, welche Stufe die Aufgabe übernimmt. Apple bietet eine gewisse Transparenz, aber Sie können nicht direkt beobachten, welche Stufe für eine bestimmte Anfrage aktiviert wird.

What you ask	Which tier?	Leaves device?	Touches Google Cloud?
Diktat, Timer setzen, schnelle Antwort	On-Device	Nein	Nein
Langen E-Mail-Thread zusammenfassen	PCC oder Cloud Pro	Ja	Möglicherweise (Cloud Pro)
Komplexe Recherche oder kreatives Schreiben	Cloud Pro	Ja	Ja
Selbst gehosteter LLM via Ollama	Ihre Maschine	Niemals	Niemals

Medizinische Notizen, Rechtsdokumente und vertrauliche Geschäftsdaten sollten nicht in Apple Intelligence eingegeben werden, wenn Sie nicht sicherstellen können, dass die On-Device-Stufe genutzt wird. Für verifizierte Datenspeicherung sind selbst gehostete lokale LLMs eine der wenigen Architekturen, bei der Sie unabhängig verifizieren können, dass Eingabe- und Ausgabedaten die eigene Umgebung nicht verlassen — ohne Vertrauen auf Drittanbieter-Versprechen.

Was das für Entwickler und Unternehmen bedeutet

Die Entwickler-Story der WWDC 2026 dreht sich weniger um Modellqualität als um die Aktionsoberfläche. Apple erweitert App Intents, damit Apple Intelligence Drittanbieter-Apps aufrufen kann — aber nur über explizit deklarierte Actions und Datenstrukturen. Siri scrapet nicht die Benutzeroberfläche; sie ruft deklarierte Intents auf.

Das ist funktional analog zu GEO (Generative Engine Optimization). Statt Inhalte für KI-Suchcrawler zu strukturieren, strukturieren Sie die Aktionsoberfläche, die Ihre App dem OS-Modell bereitstellt. Apps mit sauberen, granularen App Intents erscheinen in Apple Intelligence-Ergebnissen; Apps ohne entsprechende Intents nicht.

Für DSGVO-regulierte EU-Unternehmen: Die On-Device-Stufe bietet standardmäßig Datenspeicherung auf dem Gerät, was für einfache Aufgaben Art. 32 DSGVO-Anforderungen erfüllen kann. Die Cloud-Pro-Stufe leitet Daten an Google Cloud in den USA weiter — dieselben Kapitel-V-Drittlandtransfer-Fragen wie bei jedem anderen US-Cloud-Dienst. Rechtsteams sollten prüfen, ob Apple Intelligence in den DSFA-Umfang fällt.

Das ehrliche Fazit

Apple hat 'private On-Device-KI' für rund eine Milliarde Gerätenutzern zur Mainstream-Erwartung gemacht — diese Bestätigung des Local-First-Ansatzes ist bedeutsam. Apple Intelligence ist jedoch ein hybrides, teilweise Google-gestütztes Closed-Weight-System: ein Einstiegstor zum Local-AI-Mindset, kein Ersatz für das Betreiben eigener Modelle.

Wenn Datenschutz Ihre Hauptmotivation ist, bringt die Drei-Stufen-Architektur echte Einschränkungen mit sich: Cloud-Stufen verarbeiten Ihre Anfragen, die Cloud-Pro-Stufe läuft auf US-basierter Google-Cloud-Infrastruktur, und Sie kontrollieren weder Gewichte noch Routing-Logik noch Update-Zeitplan.

Selbst gehostete lokale LLMs — Qwen, Llama, Gemma auf eigener Hardware — sind eine der wenigen Architekturen, bei der Sie unabhängig verifizieren können, dass Eingabe- und Ausgabedaten die eigene Umgebung nicht verlassen — ohne Vertrauen auf Drittanbieter-Versprechen.

Für EU-Nutzer: On-Device bietet Datenspeicherung auf dem Gerät für einfache Aufgaben. Für komplexe Aufgaben, die an Google Cloud weitergeleitet werden, gilt dieselbe DSGVO-Kapitel-V-Analyse wie für jeden anderen US-Cloud-Dienst.

Häufig gestellte Fragen

Ist Apple Intelligence ein lokales LLM?

Nicht ganz. Apple Intelligence ist ein dreistufiges Hybridsystem. Einfache Aufgaben nutzen das On-Device-Modell (AFM Core / AFM 3 Core Advanced), das auf Apple Silicon läuft und das Gerät nie verlässt. Mittelschwere Aufgaben gehen an Apples Private Cloud Compute Server. Komplexe Aufgaben gehen an AFM 3 Cloud Pro auf Nvidia-GPUs in Google Cloud. Nur die erste Stufe qualifiziert als echtes lokales Modell.

Nutzt Apple Gemini auf meinem iPhone?

Nein. Die On-Device-Modelle — AFM Core und AFM 3 Core Advanced — stammen von Apple und haben keinerlei Google-Beteiligung. Gemini wurde als Lehrsignal zum Training des Cloud-Modells (AFM 3 Cloud Pro) verwendet, läuft aber nicht auf Ihrem Gerät. Ihre On-Device-Apple-Intelligence-Interaktionen gelangen nicht zu Google.

Werden meine Daten an Google gesendet?

Nur für Aufgaben, die an die Cloud-Pro-Stufe (AFM 3 Cloud Pro) weitergeleitet werden, die auf Nvidia-GPUs in Google Cloud läuft. Einfache On-Device-Aufgaben verlassen Ihr Gerät nie. Mittelschwere Aufgaben gehen an Apples Private Cloud Compute (nicht Google). Für komplexe Reasoning-Aufgaben kommt Google Cloud zum Einsatz.

Wie groß ist Apples On-Device-Modell?

Apples AFM 3 Core Advanced ist ein 20B Sparse-Modell, das via Instruction-Following Pruning nur 1–4B Parameter pro Prompt aktiviert. Das macht es speichereffizient genug für iPhone- und Mac-Chips.

Kann ich statt Apple Intelligence einen eigenen lokalen LLM betreiben?

Ja. Ollama (kostenlos, plattformübergreifend) ermöglicht den Betrieb von Open-Weight-Modellen — Qwen, Llama, Gemma — vollständig auf eigener Hardware. Im Gegensatz zu Apple Intelligence sind selbst gehostete LLMs vollständig offline, nutzen offene Gewichte und leiten nichts durch Apples oder Googles Infrastruktur.

Ist Apple Intelligence datenschutzkonform genug für die DSGVO?

Die On-Device-Stufe bietet starke Datenspeicherung — Daten verlassen den Apple Silicon Chip nicht, was für einfache Aufgaben Art. 32 DSGVO erfüllen kann. Die Cloud-Pro-Stufe leitet Daten an Google Cloud (USA) weiter und wirft DSGVO-Kapitel-V-Drittlandtransfer-Fragen auf. EU-Unternehmen, die sensible personenbezogene Daten verarbeiten, sollten eine DSFA durchführen.

Funktioniert Siri nach WWDC 2026 auch offline?

Für On-Device-Aufgaben — Diktat, schnelle Antworten, Bildschirmerkennung — ja, Siri funktioniert ohne Internetverbindung. Aufgaben, die Private Cloud Compute oder Cloud Pro benötigen, erfordern Konnektivität.

Was ist homeOS und das HomePad?

homeOS ist ein neues Betriebssystem, das auf der WWDC 2026 für Smart-Home-Hub-Geräte vorgestellt wurde. Apple zeigte eine Entwicklervorschau für das kommende HomePad. Technische Details und ein Erscheinungsdatum wurden auf der WWDC 2026 nicht bekannt gegeben.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Beta herunterladen →

← Zurück zu Lokale LLMs

Apples On-Device-KI vs. echte lokale LLMs: Was WWDC 2026 wirklich geändert hat

Ist Apple Intelligence ein lokales LLM?

Was Apple auf der WWDC 2026 angekündigt hat

Die Drei-Stufen-Architektur: Was wo läuft

Gemini ist ein Lehrer, nicht das Laufzeitmodell

Apples On-Device-Modell vs. ein selbst gehosteter lokaler LLM

Was das für Nutzer bedeutet: Datenschutz in der Praxis

Was das für Entwickler und Unternehmen bedeutet

Das ehrliche Fazit

Weiterführende Artikel

Häufig gestellte Fragen

Ist Apple Intelligence ein lokales LLM?

Nutzt Apple Gemini auf meinem iPhone?

Werden meine Daten an Google gesendet?

Wie groß ist Apples On-Device-Modell?

Kann ich statt Apple Intelligence einen eigenen lokalen LLM betreiben?

Ist Apple Intelligence datenschutzkonform genug für die DSGVO?

Funktioniert Siri nach WWDC 2026 auch offline?

Was ist homeOS und das HomePad?

Hinweis zu Drittanbieter-Fakten