PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Top Ollama-Modelle & Juni 2026 Updates: Neue Releases
Beste Modelle

Top Ollama-Modelle & Juni 2026 Updates: Neue Releases

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die beliebtesten Open-Source-Modelle auf Ollama im Mai 2026: Llama 4 Scout ist die beste Qualität, Qwen3 wächst am schnellsten, DeepSeek-R1 führt bei Reasoning, Gemma 4 revolutioniert Agenten. Neu im Mai: Kimi K2.6 (Top-Coding, MoE, MIT-Lizenz), Qwen 3.6 27B (77,2% SWE-bench), GLM-5.1. Dieser Leitfaden zeigt Download-Befehle, RAM-Anforderungen, Benchmarks und welche Modelle für Ihre Anforderungen am besten geeignet sind.

Präsentation: Top Ollama-Modelle & Juni 2026 Updates: Neue Releases

Die Präsentation behandelt: Top 10 Ollama-Modelle nach Download-Häufigkeit, Leistungsvergleich (60-74% HumanEval), beste Modelle nach Anwendungsfall (Chat, Codierung, Reasoning, Vision), DeepSeek-R1 Chain-of-Thought-Reasoning und exakte Pull-Befehle. Laden Sie die PDF als Ihre Ollama-Modellauswahl-Referenzkarte herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Am meisten heruntergeladen: Llama 3.2 3B (Tutorials) und Llama 4 Scout (beste Qualität, MoE).
  • Bestes Reasoning: DeepSeek-R1 7B und 14B – Chain-of-Thought, übertrifft größere Modelle bei Mathe und Logik.
  • Bestes Coding: Kimi K2.6 (Frontier MoE), Qwen 3.6 27B (beste dicht), Devstral Small 24B (beste agentic).
  • Beste Bildverarbeitung: Gemma 4 9B (Vision + Tool Calling) und Llama 3.2 Vision 11B.
  • Ollama-Bibliothek Mai 2026: 4.500+ Modelle. Alle über `ollama pull <name>` verfügbar.

Was ist neu in Ollama — Juni 2026 Update

Aktuelle Ollama-Version: v0.22.1 (veröffentlicht 3. Mai 2026). Dies ist die neueste stabile Version auf ollama.com/download verfügbar.

Neueste Ausgabe (3. Mai 2026): Ollama v0.22.1 hat vollständige Gemma 4-Unterstützung mit Thinking und Tool-Calling-Funktionen hinzugefügt. Das Release enthielt verbesserte Quantisierungsverarbeitung und Modell-Inferenz-Optimierungen.

Neue Modelle hinzugefügt (Mai–Juni 2026):

  • Kimi K2.6 (Moonshot AI, Mai 2026) — Erstes nicht-westliches Modell mit Tier A Coding-Benchmarks (87/100). MoE-Architektur. MIT-Lizenz.
  • Qwen 3.6 27B (Alibaba, Mai 2026) — Bestes dichtes Coding-Modell mit 77,2% SWE-bench.
  • GLM-5.1 (Zhipu AI, Mai 2026) — Führender Structured Code Generator.
  • Gemma 4 (Google, 2. April 2026) — Erste Vision + Tool-Calling-Kombination mit 6 GB VRAM.
bash
# Ollama auf die neueste Version aktualisieren
curl https://ollama.ai/install.sh | sh

# Oder auf Mac: brew upgrade ollama

# Aktuelle Version prüfen
ollama --version  # Ausgabe: ollama version 0.22.1

Top-Modelle nach Kategorie

Die Qualität der Modellausgabe hängt stark davon ab, wie Sie prompten. Für strukturierte Techniken, die mit allen lokalen Modellen funktionieren — darunter Chain-of-Thought, Few-Shot-Beispiele und Output-Formatierung — siehe den Prompt-Engineering-Guide. Für Reasoning-Aufgaben verbessert Chain-of-Thought-Prompting erheblich DeepSeek-R1 und Qwen3 Output-Qualität. Für Quantisierungskompromisse dieser Modelle siehe den Quantisierungsleitfaden →. Um zu ermitteln, wie viel VRAM jedes Modell benötigt, siehe den VRAM-Anforderungsleitfaden →. Für Agent-Workflows mit Gemma 4 siehe Tree-of-Thought und ReAct. Sobald ein Tool-Calling-Modell aus dieser Liste in einer mehrstufigen Schleife mit Datei- und Datenbankzugriff läuft, siehe Lokale KI-Agenten mit MCP für das Open-Source-Orchestrierungsmuster.

  • Allgemeines Chat (Anfänger): `ollama run llama3.2:3b` -- die meiste Dokumentation, am besten unterstütztes Einstiegsmodell.
  • Allgemeines Chat (Qualität): `ollama run llama4:scout` -- MoE-Architektur, ~10 GB VRAM. Für 8 GB Maschinen `ollama run llama3.2:3b` verwenden.
  • Codierung (7B): `ollama run qwen3:8b` -- 76% HumanEval, verbessert gegenüber Qwen2.5, mehrsprachig.
  • Codierung (bestes Agentic, 24B): `ollama run devstral-small:24b` -- Bestes Agentic Coding-Modell (Multi-Datei-Edits, Debugging). 16 GB RAM. Von Mistral AI.
  • Codierung (bestes Dicht, 27B): `ollama run qwen3.6:27b` -- 77,2% SWE-bench. Bestes dichtes Coding-Modell. 22 GB VRAM.
  • Codierung (Frontier MoE): `ollama run kimi-k2.6` -- 87/100 Real-World-Codierung, Top-Tier. MoE (42B aktiv/1T gesamt). MIT-Lizenz. Benötigt Quantisierung für Consumer-Hardware.
  • Agent-Aufgaben und Tool-Calling: `ollama run gemma4:9b` -- Veröffentlicht 2. April 2026. Built-in Tool-Calling + Vision-Unterstützung. Empfohlen für lokale Agenten, Function-Calling und strukturierte Ausgabe. 6 GB RAM.
  • Reasoning und Mathematik: `ollama run deepseek-r1:7b` -- Chain-of-Thought-Modell, beste lokale Mathe-Leistung bei 7B.
  • Mehrsprachig: `ollama run qwen3:7b` -- 29+ native Sprachen, stärkste nicht-englische Unterstützung, 76% HumanEval.
  • Bildverarbeitung: `ollama run gemma4:9b` -- Vision + Tool Calling (Mai 2026). Oder `ollama run llama3.2-vision:11b` für dedizierte Vision.
  • Schnell und leichtgewichtig: `ollama run gemma2:2b` -- schnellste CPU-Inferenz, 1,7 GB RAM.
  • Hohe Qualität (16 GB RAM): `ollama run mistral-small3.1` -- nahe 70B Qualität bei 14 GB RAM.
Ollama-Modellauswahl nach Anwendungsfall: Mai 2026. Chat: llama4:scout, Codierung: qwen3.6:27b, Reasoning: deepseek-r1:7b.
Ollama-Modellauswahl nach Anwendungsfall: Mai 2026. Chat: llama4:scout, Codierung: qwen3.6:27b, Reasoning: deepseek-r1:7b.

DeepSeek-R1: Reasoning-Durchbruch

DeepSeek-R1 wurde im Januar 2025 veröffentlicht und verkörpert einen signifikanten Fortschritt im Reasoning auf lokalen Größen. Das Modell führt explizite Chain-of-Thought (CoT) Reasoning durch: Sie sehen die internen Gedankenketten des Modells, bevor die endgültige Antwort gegeben wird.

  • Größen verfügbar: 1,5B (mobil), 7B, 70B. 1,5B ist für Bildungsgeräte ausreichend; 7B übertrifft Llama 3.1 13B bei Mathematik.
  • Leistung auf Benchmarks: 52 % bei MATH (gegenüber 23 % Llama 3.1 8B), verbesserte Logik und mehrschrittige Problemlösung.
  • RAM-Anforderungen: 1,5B: 2 GB, 7B: 6 GB, 70B: 44 GB (Q4-Quantisierung).
  • Lizenz: Deepseek-Lizenzen (einige Einschränkungen bei Decompilation; überprüfen Sie vor Enterprise-Einsatz).
  • EU-Datenhandhabung: Bei Einsatz in EU-Regionen verarbeitet DeepSeek-R1 Daten gemäß EU-Datenschutzbestimmungen. Lokale Ausführung auf privaten Servern oder Geräten gewährleistet Datensouveränität -- keine Cloud-Übertragung erforderlich.
bash
ollama run deepseek-r1:7b
# Beispielprompt: "Wenn zwei Züge sich einer Station mit 100 km/h nähern, wann treffen sie sich?"
# DeepSeek-R1:7b antwortet mit sichtbaren Gedankenketten:
# <Gedanken>
# ...Pfade erkunden, Annahmen überprüfen...
# </Gedanken>
# Antwort: Sie treffen sich ...
DeepSeek-R1 7B vs Mistral 7B: 52% vs 28% MATH. Chain-of-Thought-Reasoning -- langsamer, deutlich genauer.
DeepSeek-R1 7B vs Mistral 7B: 52% vs 28% MATH. Chain-of-Thought-Reasoning -- langsamer, deutlich genauer.

Vision-Modelle auf Ollama

Mai 2026: Diese Modelle auf Ollama unterstützen Bildeingabe (multimodal). Gemma 4 unterstützt sowohl Vision ALS AUCH Tool Calling – einzigartig unter Vision-Modellen auf Ollama.

ModellRAMBildunterstützungOllama Befehl
llama3.2-vision:11b~8 GBJaollama run llama3.2-vision:11b
llama3.2-vision:90b~55 GBJaollama run llama3.2-vision:90b
gemma3:9b (vision)~6 GBJaollama run gemma3:9b
minicpm-v:8b~5,5 GBJaollama run minicpm-v
gemma4:9b~6 GBJa ✓ollama run gemma4:9b
5 Ollama-Vision-Modelle für Bildeingabe. Gemma 4 9B (6 GB) mit Tool Calling. Llama 3.2 Vision 11B (8 GB) für dedizierte Vision. Alle lokal.
5 Ollama-Vision-Modelle für Bildeingabe. Gemma 4 9B (6 GB) mit Tool Calling. Llama 3.2 Vision 11B (8 GB) für dedizierte Vision. Alle lokal.

Vollständiger Top-10-Vergleich

Download-Zählungen bevorzugen immer noch Llama 3.x und Qwen 2.5 aufgrund der Häufigkeit von Tutorials. Für neue Projekte im Mai 2026 sind Llama 4 Scout, Qwen3 und Gemma 4 zu bevorzugen.

#ModellBeste fürRAMHumanEval
1Llama 3.2 3BEinstiegsmodell, allgemeiner Chat2,5 GB60%
2Llama 4 Scout 17BBeste Gesamtqualität, MoE~10 GB85%
3Qwen3 8BAktualisiert, mehrsprachig + Codierung5,5 GB76%
4Devstral Small 24BAgentic Codierung (Multi-Datei)16 GB80%
5deepseek-r1:7bReasoning, Mathe5 GB
6Mistral 7B v0.3EU-Einsatz, effizient4,5 GB39%
7mistral-small3.1Qualität bei 16 GB14 GB74%
8gemma2:2bSchnell, niedriger RAM1,7 GB
9gemma4:9bVision + Tool Calling6 GB
10phi4-miniReasoning, 4 GB RAM2,5 GB70%
Top 10 Ollama-Modelle: RAM von 1,7 GB (gemma2:2b) bis 16 GB (Devstral). Bevorzugt für neue Projekte Mai 2026: Llama 4 Scout, Qwen3, Gemma 4.
Top 10 Ollama-Modelle: RAM von 1,7 GB (gemma2:2b) bis 16 GB (Devstral). Bevorzugt für neue Projekte Mai 2026: Llama 4 Scout, Qwen3, Gemma 4.

Wie durchsuchen Sie die Ollama-Bibliothek?

Es gibt zwei Möglichkeiten, mit Ollama-Modellen zu arbeiten. Installierte Modelle wechseln: In der Ollama Mac-App klicken Sie auf den Modell-Dropdown-Button am unteren Rand des Chat-Eingabefeldes (zeigt den aktuellen Modellnamen, z. B. "llama4:scout"), um zwischen lokal installierten Modellen zu wechseln. Neue Modelle finden und herunterladen: Besuchen Sie ollama.com/library, um 4.500+ Modelle nach Kategorie zu durchsuchen, und nutzen Sie dann die CLI-Befehle unten zum Herunterladen.

  • Öffnen Sie https://ollama.ai/library in einem Webbrowser für die vollständige durchsuchbare Bibliothek aller 4.500+ Modelle.
  • Filteroptionen: Modellgröße, Lizenz, Veröffentlichungsdatum, Benchmarks (MMLU, HumanEval, MATH).
  • Ratings pro Modell: Nutzer-Downloads, GitHub-Sterne (für das Basis-Modell), Ollama-Sterne.
  • Neue Modelle: Ollamás Bibliothek wird kontinuierlich aktualisiert (neue Modelle erscheinen Tage nach der Veröffentlichung).
bash
ollama list
# Zeigt alle installierten Modelle an

ollama pull llama4:scout
# Lädt Llama 4 Scout herunter (beste Qualität, MoE)

ollama pull qwen3.6:27b
# Lädt Qwen 3.6 27B herunter (Best Coding Model, 77,2% SWE-bench)

ollama run llama4:scout
# Startet eine interaktive Chat-Sitzung

ollama run -m deepseek-r1:7b "Lösen Sie 2^10"
# Löst Reasoning-Aufgaben mit CoT aus

Häufige Fehler bei der Auswahl von Ollama-Modellen

Ich habe einen großen Modell-Tag gepullt, aber mein RAM ist voll. Was ist passiert?

Zu schnell gepullt, ohne den RAM zu überprüfen. Verwenden Sie `ollama show [model-name]` BEVOR Sie pullen. Beispiel: `ollama show llama3.1:70b` zeigt RAM-Anforderungen an (~42-48 GB mit Q4-Quantisierung). Für Anfänger: Bleiben Sie bei 7B-13B-Modellen (unter 16 GB RAM). Löschen Sie mit `ollama rm [model-name]`.

Ich verwende ein Allzweck-Modell wie Llama 3.1, aber die Codierung ist langsam. Warum?

Llama 3.1 8B ist Allzweck-freundlich, aber Qwen2.5 oder Mistral 7B sind für technische Aufgaben spezialisiert. Für Codierung: Schalten Sie zu Qwen2.5 7B um (75,4 % HumanEval gegenüber 68,2 % für Llama). Beide laufen unter 8 GB RAM.

Ich habe ein Modell gepullt, sehe es aber nicht in der Liste. Wie überprüfe ich die Installation?

Führen Sie `ollama list` aus. Ollama speichert Modelle unter `~/.ollama/models/` (Mac) oder `%USERPROFILE%.ollamamodels` (Windows). Wenn sich das Modell dort befindet, aber nicht in der Liste angezeigt wird, neustarten Sie den Ollama-Daemon: Beenden Sie Ollama und öffnen Sie es erneut.

Häufig gestellte Fragen

Wie viel RAM brauche ich für ein lokales Modell?

7B-Modelle benötigen 6,5-8 GB RAM. 13B-Modelle: 11-14 GB. 70B-Modelle: 42-48 GB mit Quantisierung (Q4_K_M). Kleiner (3B): 2-3 GB. Überprüfen Sie mit `ollama show [model-name]` vor dem Herunterladen.

Kann ich Ollama-Modelle offline ausführen?

Ja. Nach dem initialen Download läuft jede Inferenz lokal, ohne Internetverbindung. Ollama überprüft gelegentlich Updates (aber nicht automatisch angewendet).

Welches Modell hat die beste deutsche Sprachunterstützung?

Qwen3 / Qwen 3.6 27B hat überlegene deutsche Unterstützung (trainiert auf CulturaX und DE-Wikitext). Llama 3.1 ist für Deutsch angemessen, aber Qwen ist präziser. Devstral Small 24B (Mistral AI, französisches Unternehmen, Apache 2.0) ist für Deutsch und Französisch kompetent.

Sind Ollama-Modelle wirklich kostenlos?

Ja. Alle auf Ollama verfügbaren Modelle sind Open-Source mit freien Lizenzen (Apache 2.0, Meta Llama 3 Community, Deepseek). Keine Abonnements, keine API-Gebühren. Laden Sie herunter, installieren Sie lokal, und verwenden Sie unbegrenzt.

Wie schnell ist DeepSeek-R1 wirklich?

Erzeugungsgeschwindigkeit: 15-25 Token/Sek. auf M1 Pro (ähnlich wie Llama 3.1 7B). Die Gesamtlatenz ist höher, weil Gedankenketten ausgegeben werden -- erwarten Sie 8-12 Sekunden für mittlere Anfragen. Für Echtzeit-Interaktion nutzen Sie Llama 3.1 oder Mistral.

Warum sollte ich Ollama verwenden und nicht einfach ChatGPT Plus?

Datenschutz: Keine Chats an OpenAI übertragen. Kosten: Kein monatliches Abonnement; eine GPU-Einmalinvestition. Offline: Funktioniert vollständig ohne Internet. Anpassbar: Systemprompte, Verhaltensrichtlinien und Modellparameter vollständig unter Ihrer Kontrolle.

Können Ollama-Modelle Bilder verarbeiten?

Ja. Llama 3.2 Vision, Qwen2-VL und Gemma 3 sind alle Multi-Modal. Laden Sie Bilder als lokale Dateien hoch; keine Cloud-Übertragung. Unterstützung: JPEG, PNG, GIF.

Wie aktualisiere ich auf neuere Ollama-Modellversionen?

Führen Sie `ollama pull [model-name]` erneut aus. Ollama lädt nur die Unterschiede herunter (Deduplizierung). Alte Versionen können gelöscht werden mit `ollama rm [model-name]:tag`.

Muss ich bei der Verwendung lokaler LLMs via Ollama die DSGVO beachten?

Ja. DSGVO Artikel 32 erfordert angemessene Sicherheitsmaßnahmen für personenbezogene Daten. Lokale Inferenz auf privaten Geräten oder Servern erfüllt Datenschutz-durch-Design-Anforderungen. Keine Cloud-Übertragung bedeutet: Datensouveränität, keine Datenexporte, Einhaltung von BSI-Grundschutz-Katalogen. Vorsicht: Wenn Sie ein Cloud-Modell verwenden, prüfen Sie zunächst die Datenverarbeitungsverträge.

Ist Ollama mit Open-Source-Modellen für den deutschen Mittelstand geeignet?

Ja. Kleine und mittlere Unternehmen (KMU) in Deutschland profitieren von: Datensouveränität (kein Cloud-Vendor Lock-in), Einhaltung von IT-Sicherheitsstandards (BSI IT-Grundschutz), Skalierbarkeit auf Standard-Hardware und Einsparungen durch keine API-Gebühren. Qwen2.5 7B läuft auf einer typischen Office-GPU; Llama 3.1 8B ist ein bewährtes Standard-Mittelstand-Modell für interne Tools, Customer-Service-Automation und Dokumentenverarbeitung.

Verwandte Lektüre

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Beste Ollama-Modelle Juni 2026: Top 10 + Kimi K2.6, Qwen 3.6