重要なポイント
- Qwen 3.6 27Bがリード:92.1% HumanEval、77.2% SWE-bench、84.3% MBPP — 3つのベンチマーク全てでローカル最高スコア。
- DeepSeek Coderがクラウドコスト最安:$0.14/1Mトークン、HumanEvalでQwenに0.5ポイント差。
- Mistral Devstralはエージェント型タスクで優秀:マルチステップツール使用とマルチファイルリファクタリングで優位。
- ディスパッチ戦略:プライベート/GDPR対象のコーディングタスク → ローカルQwen 3.6、非機密の大量生成 → DeepSeek Coder API。