Question 1

Was ist die neueste Ollama-Version?

Accepted Answer

Aktuelle Version auf ollama.com oder der Ollama GitHub-Releases-Seite prüfen. Unter Linux das Installationsskript ausführen. Auf Mac/Windows das neueste Installationsprogramm herunterladen.

Question 2

Die besten Ollama-Modelle im Moment?

Accepted Answer

Stand Mai 2026: Das beste allgemeine Ollama-Modell ist Llama 3 8B. Für Coding führt Qwen 3 Coder 14B. Für kompakte Nutzung ist Phi-4 Mini ausgezeichnet. Diese Seite wird monatlich aktualisiert.

Question 3

Die besten Ollama-Modelle nur für die CPU?

Accepted Answer

Ohne GPU bietet Phi-4 Mini bei Q4 die beste Balance aus Qualität und Geschwindigkeit auf der CPU. Llama 3 8B Q4 funktioniert mit 8+ GB RAM. Gemma 2B ist die schnellste CPU-Option.

Question 4

Kann man Qwen 3 mit Ollama ausführen?

Accepted Answer

Ja — Ollama unterstützt alle Qwen 3-Modellgrößen von 0.6B bis 72B. Starten Sie jede Größe mit ollama run qwen3:8b. Das 8B-Modell benötigt bei Q4 ~6 GB VRAM.

Question 5

Welche Ollama-Modelle unterstützen Vision?

Accepted Answer

Ollama unterstützt mehrere Vision-Modelle: LLaVA, Gemma 3 multimodal und Qwen-VL. Der einfachste Einstieg ist ollama run llava. Alle akzeptieren Bilder über die Ollama API.

Question 6

Welche Ollama-Modelle unterstützen 128K Kontext?

Accepted Answer

Llama 3.3 8B unterstützt 128K Kontext auf Ollama. Qwen 3 14B erreicht 1M Tokens. Hinweis: Voller Kontext erhöht den VRAM-Bedarf erheblich — ein 128K-Fenster benötigt 3–4× mehr VRAM als das Standard-4K-Fenster.

Question 7

Qwen Coder vs. DeepSeek Coder: Welcher ist besser?

Accepted Answer

Qwen 3 Coder gewinnt bei Python und TypeScript. DeepSeek Coder V2 hat eine breitere Sprachunterstützung. Beide benötigen ~10 GB VRAM bei 14B Q4. Für die meisten Entwickler ist Qwen 3 Coder die bessere Standardwahl.

Question 8

Ollama vs LM Studio: Welches sollten Sie wählen?

Accepted Answer

Wenn Sie ein Terminal nutzen und mit APIs entwickeln, wählen Sie Ollama. Wenn Sie eine grafische Oberfläche bevorzugen und einfach mit Modellen chatten möchten, nehmen Sie LM Studio. Beide sind kostenlos und führen Modelle lokal aus.

Question 9

Jan vs LM Studio: Welches ist besser?

Accepted Answer

Jan ist vollständig Open Source mit einem Erweiterungssystem. LM Studio hat eine ausgefeiltere Benutzeroberfläche und eine größere integrierte Modellbibliothek. Für Power-User, die Anpassbarkeit wünschen, empfiehlt sich Jan. Für einfache Bedienung ist LM Studio besser.

Question 10

Die besten lokalen LLM-Apps für Android?

Accepted Answer

Die besten Android-Apps für den lokalen LLM-Betrieb sind MLC Chat, Pocketpal und Termux mit Ollama. MLC Chat ist am einfachsten für Einsteiger. Alle laufen vollständig offline.

Question 11

Bestes Frontend für Ollama?

Accepted Answer

Open WebUI ist das beste Ollama-Frontend für die meisten Nutzer. Es ist kostenlos, funktionsreich und läuft als Docker-Container. SillyTavern eignet sich besser für Rollenspiele. Jan ergänzt einen lokalen Modell-Manager.

Question 12

Qwen 14B vs. Llama 3 8B: Welches läuft lokal besser?

Accepted Answer

Llama 3 8B passt in 6 GB VRAM und läuft schneller. Qwen 3 14B benötigt 10+ GB, erzielt aber höhere Benchmark-Werte. Mit 12 GB VRAM gewinnt Qwen 14B bei der Qualität.

Question 13

Bestes 14B-Modell für Coding?

Accepted Answer

Qwen 3 Coder 14B ist das beste 14B-Coding-Modell für den lokalen Einsatz. Es passt mit Q4_K_M in 10 GB VRAM und erzielt den höchsten HumanEval-Score unter den 14B-Modellen. DeepSeek Coder 14B ist eine starke Alternative mit ähnlichem VRAM-Bedarf.

Question 14

Bester Mini-PC für lokale LLMs?

Accepted Answer

Der Minisforum UM790 Pro und der Mac Mini M4 sind die besten Mini-PCs für den lokalen Betrieb von LLMs. Der UM790 Pro nutzt eine AMD iGPU mit Unified Memory. Der Mac Mini M4 ist schneller und energieeffizienter. Beide führen 7–13B-Modelle ohne diskrete GPU aus.

Question 15

Beste MoE-Modelle für lokales Coding?

Accepted Answer

Mixtral 8x22B und DeepSeek V2 sind die führenden MoE-Coding-Modelle für den lokalen Einsatz. MoE-Modelle aktivieren pro Token nur einen Bruchteil der Parameter, was eine bessere Qualität pro VRAM als vergleichbar große Dense-Modelle ergibt. Beide benötigen mindestens 16 GB VRAM bei Q4.

Question 16

Bestes lokales LLM für Coding mit 12 GB VRAM?

Accepted Answer

Qwen 3 Coder 14B Q4_K_M ist das beste Coding-Modell für 12-GB-VRAM-GPUs wie die RTX 3060. Es benötigt ~10 GB VRAM und erzielt den höchsten HumanEval-Score unter Modellen, die in dieses Limit passen. DeepSeek Coder 14B ist eine starke Alternative.

Question 17

Bestes LLM für AMD 5700X + RTX 3070 Ti?

Accepted Answer

Mit einer RTX 3070 Ti (8 GB VRAM) sind Llama 3 8B Q4_K_M und Mistral Small Q5_K_M die besten lokalen LLMs. Beide benötigen ~6 GB VRAM und laufen mit ~22–25 tok/s. Der AMD Ryzen 7 5700X übernimmt die schnelle Tokenisierung als CPU-Fallback.

Question 18

Können Sie lokale LLMs auf einer Radeon RX 6800M ausführen?

Accepted Answer

Ja. Die Radeon RX 6800M hat 12 GB GDDR6 VRAM und kann lokale LLMs ausführen. Unter Linux verwenden Sie ROCm für GPU-Beschleunigung. Unter Windows nutzen Sie llama.cpp mit Vulkan oder CPU-Fallback. Llama 3 8B Q4_K_M läuft auf Linux mit ROCm bei ~12 tok/s.

Question 19

Kann man RAG mit 2 GB RAM betreiben?

Accepted Answer

Ja — aber nur für kleine persönliche Dokumentensammlungen. Mit 2 GB RAM verwendet eine funktionsfähige RAG-Pipeline Llama 3.2 1B (~750 MB) mit MiniLM-L6-v2-Embeddings (~80 MB) und einem In-Memory-Vektorspeicher. Insgesamt ~1,3–1,5 GB passt auf ein 2-GB-Gerät. Größere Modelle (7B+) und größere Dokumentensammlungen (200+ Seiten) benötigen mindestens 8 GB.

Question 20

Bestes lokales LLM für einen 16-GB-RAM-Laptop?

Accepted Answer

Für einen 16-GB-RAM-Laptop ohne dedizierte GPU ist Qwen3 8B (Q4_K_M) der beste Allrounder — es benötigt ~6 GB und läuft mit ~8–15 tok/s auf einem modernen CPU. Gemma 3 12B ist das stärkste Modell, das noch passt (enger und langsamer); Phi-4-mini (~3,5 GB) eignet sich am besten für schwächere Rechner; Llama 3.1 8B ist eine ausgewogene Alternative, und Qwen3-Coder ist die Wahl fürs Coding. Apple-Silicon-Laptops (M-Serie) sind durch Unified Memory 3–4× schneller. Mit 32 GB RAM sind 14B-Modelle möglich.

Question 21

Was ist das CO-STAR-Prompt-Framework?

Accepted Answer

CO-STAR ist eine sechsteilige Prompt-Struktur: Context (Hintergrund), Objective (Aufgabe), Style (Schreibstil), Tone (emotionaler Register), Audience (Leserschaft), Response (Ausgabeformat). Es hilft, konsistente, zielgerichtete LLM-Ausgaben zu erzeugen, indem jede Einschränkung explizit gemacht wird.

Question 22

Welches LLM ist aktuell das beste?

Accepted Answer

Für Cloud-Nutzung: Claude Opus 4.8 führt bei Coding und langen Dokumenten, GPT-5.5 Instant bei allgemeinen Aufgaben, Gemini 2.5 Pro bei multimodalen Aufgaben. Lokal: Llama 4 Scout bei 24 GB VRAM; Qwen 3 14B für 12 GB VRAM.

Question 23

Ist Qwen DSGVO-konform?

Accepted Answer

Lokal auf eigener Hardware betriebenes Qwen ist DSGVO-konform, da keine Prompt-Daten Ihre Infrastruktur verlassen und kein Drittlandtransfer nach Artikel 44 stattfindet. Die Qwen-API über Alibaba Cloud erfordert wie jeder Nicht-EU-Anbieter Standardvertragsklauseln und eine Transferfolgenabschätzung.

Question 24

Ist DeepSeek DSGVO-sicher?

Accepted Answer

Die DeepSeek-API stellt das höchste DSGVO-Risiko unter den großen LLMs dar: Server unterliegen dem chinesischen Datenzugriffsrecht (PIPL), es gibt keine EU-Angemessenheitsentscheidung für China, und die Nutzungsbedingungen behalten ausdrücklich das Recht vor, Daten mit chinesischen Behörden zu teilen. Lokale DeepSeek-Open-Weight-Modelle haben ein deutlich niedrigeres Risikoprofil.

Question 25

Kann ein lokales LLM bei der DSGVO-Compliance helfen?

Accepted Answer

Ja — ein Open-Weight-Modell lokal zu betreiben beseitigt den Artikel-44-Drittlandtransfer, der Cloud-KI unter der DSGVO rechtlich komplex macht: Prompts und Antworten verlassen Ihren Server nie. Lokale Modelle wie Qwen 3 14B oder Llama 4 Scout können HR-, Rechts- und medizinische Texte vollständig lokal verarbeiten.

Question 26

Was ist die beste GPU unter 300 € für lokale LLMs?

Accepted Answer

Gebrauchte RTX 3060 12 GB für 200–250 € ist die beste GPU unter 300 € für lokale LLMs — 12 GB VRAM führt alle 7B- und die meisten 14B-Modelle aus.

Question 27

Was ist die beste GPU unter 600 € für lokale LLMs?

Accepted Answer

RTX 4060 Ti 16 GB für ~450 € ist der optimale Punkt — 16 GB VRAM verarbeitet 14B-Modelle bei Q5-Quantisierung mit Spielraum.

Question 28

Welche SSD ermöglicht das schnellste lokale LLM-Modell-Laden?

Accepted Answer

Samsung 990 Pro 2 TB mit 7.450 MB/s lädt ein 7B Q4-Modell in unter 2 Sekunden. Bestes Preis-Leistungs-Verhältnis für KI-Modellspeicher.

Question 29

Ist der Mac Mini M4 gut für lokale LLMs?

Accepted Answer

Ja — Mac Mini M4 Pro mit 24 GB Unified Memory läuft Llama 3 8B mit ~36 tok/s über MLX. Bestes Apple-Preis-Leistungs-Verhältnis für ca. 1.700 €.

Question 30

RunPod vs Vast.ai — welcher ist günstiger für Cloud-GPU-Miete?

Accepted Answer

Vast.ai ist günstiger für Spot-Instanzen (RTX 4090 ~0,14 €/h vs. RunPod ~0,40 €/h). RunPod ist zuverlässiger mit garantierter Verfügbarkeit.

Question 31

Wie viel kostet eine Cloud-GPU pro Stunde 2026?

Accepted Answer

RTX 4090: $0,30-0,80/h. A100 80 GB: $0,90-1,90/h. H100: $2,20-4,00/h. Am günstigsten für Inferenz: Vast.ai Spot.

Question 32

Welches VPN sollte ich für das Herunterladen großer KI-Modelle verwenden?

Accepted Answer

ProtonVPN (Schweiz, kostenloser Tarif) für auditierte Privatsphäre. Mullvad (5 €/Monat flat) für maximale Anonymität. NordVPN für 9.300+ RAM-only-Server in 110+ Ländern. Surfshark (~1,90 €/Monat) für den günstigsten Preis. ExpressVPN für die schnellsten Downloads großer Modelldateien.

Question 33

MLX vs Ollama vs llama.cpp: Welche Inferenz-Engine sollten Sie verwenden?

Accepted Answer

Auf Apple Silicon verwenden Sie MLX — es liefert ~65 tok/s im Vergleich zu ~35 tok/s für Ollama auf einem M5 Pro mit einem 8B-Modell. Auf NVIDIA-GPUs verwenden Sie Ollama für Einfachheit oder llama.cpp für maximale Kontrolle. Ollama nutzt llama.cpp unter der Haube und fügt eine API-Schicht darüber hinzu.

Question 34

Wie konvertiert man ein Ollama-Modell in das MLX-Format?

Accepted Answer

Sie können Ollama-Modelle nicht direkt in MLX konvertieren. Laden Sie stattdessen die originalen GGUF- oder SafeTensors-Gewichte von Hugging Face herunter und konvertieren Sie diese mit mlx-lm convert. Für die meisten gängigen Modelle (Llama 3, Qwen, Mistral) existieren auf Hugging Face bereits vorkonvertierte MLX-Versionen unter der mlx-community-Organisation.

Question 35

Unterstützt Ollama MLX auf Apple Silicon?

Accepted Answer

Nein. Ollama verwendet llama.cpp mit Metal-GPU-Beschleunigung auf Apple Silicon — nicht MLX. Metal-Beschleunigung ist schnell, aber nicht so optimiert wie natives MLX. Für MLX-schnelle Inferenz verwenden Sie mlx-lm direkt oder LM Studio, das beide Backends unterstützt.

Question 36

Welche Quantisierungsstufe ist die beste für 6 GB VRAM?

Accepted Answer

Q4_K_M ist der optimale Punkt — 7B/8B-Modelle bei Q4_K_M verwenden 4,7–4,9 GB und lassen 1,1 GB für den KV-Cache. Q5_K_M passt, erfordert aber eine Begrenzung des Kontexts auf 2k Token. Q6_K und höher überschreiten 6 GB.

Question 37

Mistral Small 24B vs. Qwen 3 14B vs. Llama 3.3 8B: Welches sollte ich lokal ausführen?

Accepted Answer

Wählen Sie nach VRAM: Llama 3.3 8B (4,9 GB), Qwen 3 14B (9,3 GB), Mistral Small 3.1 24B (14,4 GB). Qwen 14B gewinnt bei 12 GB VRAM. Mistral Small 24B gewinnt ab 16 GB bei Reasoning-Aufgaben.

Question 38

Funktioniert Strix Halo (Ryzen AI Max) mit Ollama über Vulkan?

Accepted Answer

Ja — Ryzen AI Max (Strix Halo, RDNA 3.5) betreibt Ollama über Vulkan unter Linux. Mit 96 GB Unified Memory beim MAX 395 passt Qwen 32B und sogar Llama 70B Q4_K_M — Modelle, die keine einzelne Desktop-GPU aufnehmen kann.

Question 39

Bestes Qwen-Modell für Coding?

Accepted Answer

Qwen3-Coder 32B ist das beste Qwen-Coding-Modell mit 24 GB VRAM (91,5 % HumanEval). Bei 8 GB VRAM: 7B mit 79,7 %. 14B ist der Sweet Spot für die meisten Entwickler bei 12 GB VRAM.

Question 40

Kann man DeepSeek V3 lokal betreiben?

Accepted Answer

Nein — DeepSeek V3 (671B MoE) benötigt bei Q4_K_M ca. 400 GB RAM. Das ist mit Consumer-Hardware nicht machbar. Praktische Alternative: DS-R1-Distill-Qwen-32B (20,5 GB VRAM, 94 % MATH-500).

Question 41

Chinesisch oder Englisch beim Prompting?

Accepted Answer

Englische Anweisungen + "Antworte auf Chinesisch" ist das beste Setup auf allen Modellen. Chinesische Prompts sparen 30–50 % Tokens bei Qwen3. Englische Prompts liefern bessere Reasoning-Ketten.

Question 42

Bestes Modell für chinesisches Rollenspiel in SillyTavern?

Accepted Answer

Qwen3-72B Q4_K_M ist das beste lokale Modell für chinesisches Rollenspiel — natives chinesisches Training, reichhaltiger Wortschatz und 128K Kontext. Yi-34B glänzt bei emotionaler Charaktertiefe. Mit 8 GB VRAM läuft Qwen3-7B flüssig mit 8–12 tok/s.

Question 43

Welches VPN funktioniert 2026 am besten für KI-Entwicklungstools aus China?

Accepted Answer

NordVPN (obfuskierte Server) und ExpressVPN (Lightway-Protokoll) sind die zuverlässigsten für HuggingFace, GitHub und Docker Hub. Surfshark als Budget-Alternative.

Question 44

Welche lokalen LLM-Apps für Android sind in Japan am beliebtesten?

Accepted Answer

MLC Chat, PocketPal AI und Ollama (via Termux) sind die besten Optionen für Android-Nutzer in Japan. Japanische Modelle wie Rinna 3.6B und ELYZA-7B sind lokal verfügbar und laufen offline.

Question 45

Welche lokalen LLM-Modelle unterstützen Japanisch am besten?

Accepted Answer

Das beste japanische Lokal-LLM hängt vom Einsatzzweck ab. Für Konversation: Rinna 3.6B (läuft ab 4 GB RAM). Für Instruktionen: ELYZA-7B. Für Coding + Japanisch: Qwen3-Coder. Alle laufen über Ollama.

Question 46

Kann man auf einem Xperia ein lokales LLM ausführen?

Accepted Answer

Ja — das Xperia 1 VI (12 GB RAM, Snapdragon 8 Gen 3) kann Rinna 3.6B und Phi-4 Q4 über MLC Chat ausführen. Das Xperia 5 V (8 GB) schafft leichte Modelle. Das Xperia 10 VI (6 GB) läuft nur TinyLlama und Gemma 2B.

Question 47

Welcher Mini-PC für lokale LLMs ist in Japan am besten?

Accepted Answer

Der beste Mini-PC für lokale LLMs in Japan ist der Beelink SER7 (Ryzen 7 7840HS, 32 GB DDR5) ab ~¥70.000 auf Amazon.co.jp (ca. €580 auf Amazon.de). Ollama läuft ohne Konfiguration; der AMD Radeon 780M iGPU unterstützt Vulkan-Beschleunigung.

Question 48

Welche GPU bietet in Japan das beste Preis-Leistungs-Verhältnis für lokale LLMs?

Accepted Answer

Die RTX 3060 12 GB für ~260 € neu (~180 € gebraucht) ist die beste Wahl in Japan. 12 GB VRAM führt jeden 7B-Modell bei 20–25 tok/s ohne CUDA-Konfigurationsaufwand aus.

Question 49

Wie viel VRAM benötigt jeder DeepSeek-R1 Distill?

Accepted Answer

Bei Q4_K_M (Ollama-Standard): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 ist etwa das 2-Fache der Q4_K_M-Größe und FP16 etwa das 4-Fache, sodass der 32B bei FP16 ein 64-GB-Setup benötigt.

Question 50

Welche DeepSeek-R1-Distill sollte ich auf meiner GPU ausführen?

Accepted Answer

Finden Sie Ihre Karte: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B oder 32B, RTX 4090 → 32B, Dual-GPU/48 GB → 70B. Für das beste kleine Modell auf 8 GB führen Sie DeepSeek-R1-0528-Qwen3-8B aus. Jedes läuft mit einem einzigen Ollama-Befehl bei Q4_K_M.

Schnelle Antworten zu lokalen LLM-Fragen

AQuantisierung & VRAM

BOllama

CTool-Vergleiche

DModell-Vergleiche

EHardware-Spezifisch

FSchnelle Antworten

GPrompt Engineering

HDatenschutz & Compliance

VRAM	Bestes Modell (Mai 2026)	Quantisierung	Anwendungsfall
4 GB	Phi-4 Mini	Q4	Einfacher Chat, kleine Aufgaben
6 GB	Llama 3 8B	Q4_K_M	Täglicher Chat und Coding
8 GB	Mistral 7B	Q5_K_M	Qualitäts- und Geschwindigkeitsausgleich
12 GB	Qwen 14B	Q4_K_M	Coding und Reasoning
16 GB	Qwen 32B	Q4_K_M	Komplexe mehrstufige Aufgaben
24 GB	Llama 70B	Q4_K_M (partiell)	Qualität nahe Produktion
48+ GB	Llama 70B	Q5_K_M oder höher	Vollpräzisions-Modelle