Wichtigste Erkenntnisse
- Qwen 3.6 27B fuehrt: 92,1% HumanEval, 77,2% SWE-bench, 84,3% MBPP — hoechste Werte in allen drei Benchmarks lokal.
- DeepSeek Coder ist der Cloud-Kostensieger: 0,14 $/1M Token, 0,5 Prozentpunkte hinter Qwen bei HumanEval.
- Mistral Devstral glaenzt bei agentischen Aufgaben: besser bei mehrstufigem Tool-Einsatz und Multi-Datei-Refactoring.
- Dispatch-Strategie: private/DSGVO-Coding-Aufgaben → lokales Qwen 3.6, nicht-sensitive Massenverarbeitung → DeepSeek Coder API.