PromptQuorumPromptQuorum

OllamaモデルをMLX形式に変換する方法

クイック回答

OllamaモデルをMLXに直接変換することはできません。代わりに、Hugging FaceからオリジナルのGGUFまたはSafeTensorsの重みをダウンロードし、mlx-lm convertで変換してください。Llama 3、Qwen、Mistralなど人気モデルのほとんどは、mlx-communityオーガニゼーション配下のHugging Faceにすでに事前変換済みMLXバージョンが存在します。

  • Ollamaモデルは直接変換できません — モデル形式が異なります
  • 事前変換済みMLXモデルはhuggingface.co/mlx-communityで人気モデルのほとんどが公開されています
  • 自分で変換する場合:Hugging Faceからダウンロードし、mlx_lm.convertを実行

更新: 2026-05

Tool Comparisons

重要なポイント

  • Ollamaはモデルを~/.ollama/models内の独自の内部形式で保存します — これらをMLXに直接インポートすることはできません
  • Hugging Faceのmlx-communityオーガニゼーションには、Llama 3、Qwen、Mistral、Phi、Gemmaなど多数の事前変換済みMLXバージョンがあります。特に日本語テキスト生成で広く使われているQwen 2.5は、mlx-communityで豊富なMLXバリアントが揃っています — 変換する前にまずそこを確認してください
  • 事前変換済みバージョンが存在しない場合は、Hugging FaceからオリジナルのSafeTensorsの重みをダウンロードし、mlx_lm.convertを実行してください — 変換中に量子化が適用されます

ステップ1:事前変換済みMLXモデルを確認する

何かを変換する前に、huggingface.co/mlx-communityを訪問してください。このコミュニティは、MLX向けにすでに変換・量子化された数百のモデルを管理しています。モデル名で検索してください — そこに存在すれば、インストールはコマンド1つで変換も不要です。なお、日本語テキスト生成で人気のQwen 2.5モデルは、mlx-communityで特に多くのMLXバリアントが公開されており、日本のユーザーにとって便利です。

事前変換済みバージョンが存在する場合は、mlx-lmで直接モデルを実行してください:

pip install mlx-lm
mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-4bit --prompt "Hello"

ステップ2:自分でモデルを変換する(事前変換済みがない場合)

希望するモデルがmlx-communityにない場合は、モデル作成者のHugging Faceリポジトリ(mlx-communityではなく)からオリジナルのSafeTensorsの重みをダウンロードし、コンバーターを実行してください。-qフラグは変換中に4ビット量子化を適用します:

変換はモデルのサイズによって2〜10分かかります。出力は.safetensorsシャードのディレクトリと、mlx互換のトークナイザー設定です。

pip install mlx-lm
mlx_lm.convert --hf-path original-org/model-name --mlx-path ./converted-model -q

MLXモデル変換に関するよくある質問

OllamaからモデルをエクスポートしてMLXにインポートできますか?
いいえ。Ollamaはモデルを~/.ollama/models内の独自の内部形式で保存します。この形式はmlx-lmで直接読み取ることができません。変換ソースとして使用するには、Hugging FaceからオリジナルのSafeTensorsまたはGGUFの重みが必要です。
mlx-lmはGGUFファイルを変換入力としてサポートしていますか?
2026年初頭時点では、mlx-lm.convertは主にSafeTensors(標準のHugging Face形式)を対象としています。GGUFファイルしかない場合は、最初にGGUFをSafeTensorsに変換するツールを使用するか、モデルのHugging FaceページでオリジナルのSafeTensorsの重みを探してください。
事前変換済みMLXバージョンがあるモデルはどれですか?
mlx-communityオーガニゼーションは、Llama 3、Qwen 2.5、Mistral、Phi-3/4、Gemma 2、および多くのファインチューンを含む主要モデルのほとんどをカバーしています。4ビットと8ビットの量子化バージョンの両方が通常利用可能です。huggingface.co/mlx-communityにアクセスし、モデルファミリー名で検索してください。
MLXに変換する際にどの量子化を使用すべきですか?
16 GBのユニファイドメモリを持つほとんどの7B〜14BモデルにはM1/M2/M3/M4チップで4ビット量子化(-qフラグのデフォルト)を使用してください。7Bモデルの場合、約4 GBのモデルが生成され、良好に動作します。8ビットは32 GB以上の場合で、より高い出力品質が必要な場合のみ使用してください。