PromptQuorumPromptQuorum

MLX vs Ollama vs llama.cpp:どの推論エンジンを使うべきですか?

クイック回答

Apple Siliconでは、MLXを使用してください — M5 ProでOllamaの~35 tok/sに対して~65 tok/sを実現します(8Bモデル使用時)。NVIDIA GPUでは、シンプルさを求めるならOllamaを、最大限の制御を求めるならllama.cppを使用してください。OllamaはllaMa.cppを内部で使用し、その上にAPIレイヤーを追加しています。

  • MLX:Apple Siliconのみ、最速のネイティブ推論、Pythonベース
  • Ollama:あらゆるプラットフォーム、OpenAI互換API、最も簡単なセットアップ
  • llama.cpp:あらゆるハードウェア、最大限の制御、コンパイルが必要

更新: 2026-05

Tool Comparisons

重要なポイント

  • OllamaはllaMa.cppをバックエンドとして使用しています — Ollamaを選ぶということは、llaMa.cppにHTTP APIとモデル管理レイヤーを追加したものを選ぶことを意味します
  • MLXはApple独自のMLフレームワークです。mlx-lmはAppleのUnified Memoryアーキテクチャをネイティブで活用することで、M5 Proで8Bモデルに対して~65 tok/sを実現します — 同じチップ上のOllamaのllaMa.cpp+Metalパスより大幅に高速です
  • 直接コンパイルされたllaMa.cppは量子化とサンプリングに対してわずかに多くの制御を提供しますが、C++のビルドステップが必要です — ほとんどのユーザーにはOllamaの方が適しています

エンジン別比較

Apple Siliconがあり、最速の推論を求めるならMLXを選んでください。 mlx-lmはPythonパッケージ(pip install mlx-lmでインストール)で、AppleのUnified Memoryを使用するため、同じハードウェア上でOllamaのllaMa.cpp+Metalパスを上回ります。トレードオフ:MLXはApple Siliconでのみ動作し、永続的なAPIサービスではなくPythonスクリプトを実行します。

ハードウェアを問わず、ワンコマンドのセットアップと安定したOpenAI互換APIが必要ならOllamaを選んでください。Mac、Windows、Linuxで動作します。Apple Silicon上ではMetal付きllaMa.cppを使用 — 高速ですが、ネイティブMLXほど最適化されていません。

最大限の制御が必要ならllaMa.cppを直接選んでください:カスタム量子化、特定のサンプリングパラメータ、またはC/C++アプリケーションへの推論の組み込み。セットアップコストは高く(ソースからコンパイル)なりますが、Ollamaに実装される前のすべての機能を入手できます。

エンジン最適用途速度(M5 Pro、8B)セットアップ難易度
MLXApple Siliconネイティブ~65 tok/s中程度(Python)
Ollamaあらゆるプラットフォーム、簡単なAPI~35 tok/s簡単(ワンインストール)
llama.cpp最大限の制御、あらゆるHW~40 tok/s難しい(コンパイル)

ハードウェア別のベストな選択

Apple Silicon搭載のMacをお持ちの場合:MLXを使用してください。 pip install mlx-lmでインストールし、Hugging Face上のmlx-communityオーガニゼーションから任意のモデルを実行してください。日本ではMacのシェアが非常に高く、Apple Siliconを使う日本人開発者が多いため、MLXは特に関連性が高い選択肢です。mlx-communityにはアクティブな日本人コントリビューターも参加しており、日本語向けモデルの変換も積極的に行われています。OpenAI互換のAPIも必要な場合は、mlx_lm.server --model mlx-community/model-nameを実行してください。

NVIDIA GPUまたはその他のハードウェアをお持ちの場合:Ollamaを使用してください。 ワンコマンドでインストールでき、モデルが自動的にダウンロードされ、ポート11434でOpenAI互換のAPIを公開します。Ollamaのオーバーヘッドなしで高度な制御が必要な場合は、llaMa.cppを直接コンパイルして、内蔵のサーバーモードを使用してください。

MLX、Ollama、llama.cppに関するよくある質問

OllamaはMacでMLXを使用しますか?
いいえ。OllamaはApple Silicon上でMLXではなく、Metal GPU加速付きのllaMa.cppを使用します。ネイティブMLX推論には、mlx-lmを直接使用するか、LM Studio(両方のバックエンドをサポート)を使用してください。詳しい説明はOllamaはApple SiliconでMLXをサポートしていますか?をご覧ください。
llama.cppはOllamaより速いですか?
わずかに — ネイティブでコンパイルされたllaMa.cppは、OllamaがHTTP APIとモデル管理のオーバーヘッドを追加するため、Ollamaより約5〜10%速く動作します。ほとんどのワークロードでは差は小さいです。MLXはApple Siliconハードウェア上では両方よりも大幅に高速です。
MLXをWindowsやLinuxで使用できますか?
いいえ。MLXはAppleのフレームワークであり、Apple Silicon(M1以降)でのみ動作します。NVIDIAまたはAMD GPUを搭載したWindowsまたはLinuxでは、CUDAまたはROCm対応のOllamaまたはllaMa.cppを使用してください。
OllamaモデルをMLX形式に変換するにはどうすればよいですか?
OllamaモデルをMLXに直接変換することはできません。Hugging Faceから元のウェイトをダウンロードし、mlx-lmのコンバーターを使用するか、mlx-communityオーガニゼーションで事前変換されたバージョンを探してください。OllamaモデルをMLXに変換する方法をご覧ください。