重要なポイント
- LM Studio を lmstudio.ai からダウンロード--macOS(Apple Silicon + Intel)、Windows、および Linux(AppImage)で利用可能です。
- 最小要件:8GB RAM。推奨:7B モデル用に 16GB RAM。Apple Silicon Mac はデフォルトで GPU 加速を使用します。
- 組み込みモデルブラウザは Hugging Face を直接検索--アプリを離れずに GGUF モデルをダウンロード。
- LM Studio は組み込みチャット UI と、ポート 1234 上の OpenAI 互換ローカルサーバーを含みます。
- 最適なユースケース:GUI を好む初心者、複数のモデルを並べて比較したいユーザー、ターミナルコマンドなしで完全なパッケージが必要な全員向け。
LM Studio とは
LM Studioはローカルのメッセージングシステムを実行するためのデスクトップアプリケーション。 グラフィカルモデルブラウザ、組み込みのチャットインターフェース、およびローカルAPIサーバー--すべて1つのアプリケーションに含まれている。内部では、推論にllama.cppを使用。これはOllamaを操作するのと同じエンジン(Ollama)。
Ollamaとの主な違いは、LM StudioがGUIによって完全に駆動されていること。アプリケーションインターフェースを通じてモデルを閲覧およびダウンロード、ワンクリックでチャットを開始、構成ファイルではなくスライダーでモデル設定を管理。
LM Studioは個人の利用に無料。LM Studio、Inc.によって開発され、2023年に発売。2026年現在、NVIDIA CUDA、AMD ROCm、およびApple Metal加速をサポート。
LM Studioのシステム要件は何ですか?
| 仕様 | 最小要件 | 推奨 |
|---|---|---|
| オペレーティングシステム | macOS 13.6、Windows 10、Ubuntu 22.04 | macOS 14+、Windows 11、Ubuntu 24.04 |
| RAM | 8GB | 16GB以上 |
| ストレージ | アプリ用500 MB + モデルスペース | 複数のモデル用に50GB以上の空き容量 |
| GPU(オプション) | NVIDIA GTX 10シリーズ以降 | NVIDIA RTX 40/50シリーズ、AMD RX 7000+、またはApple M-series |
LM Studioをダウンロードしてインストールする方法
- 1lmstudio.aiにアクセスして、お使いのOSのダウンロードボタンをクリック。
- 2macOS:.dmgファイルを開いてLM Studioをアプリケーションにドラッグ。初回起動時に、システム環境設定→プライバシーとセキュリティでセキュリティプロンプトを承認。
- 3Windows:LM-Studio-Setup.exeインストーラーを実行。LM Studioは%LOCALAPPDATA%\LM-Studioにインストール。
- 4Linux:.AppImageファイルをダウンロード。`chmod +x LM-Studio-*.AppImage`で実行可能にして実行。システムインストール不要。
- 5初回起動時に、LM Studioはウェルカムスクリーンを表示し、モデルのダウンロードをお願い。
LM StudioでモデルをNative検索してダウンロードする方法
検索タブ(左サイドバーの虫眼鏡アイコン)を使用してモデルを検索:
- 1左サイドバーの検索タブをクリック。
- 2モデル名を入力--例えば「llama 3.1」または「phi-3 mini」。
- 3LM Studioはファイルサイズと量子化オプションを含むHugging FaceのマッチングGGUFモデルを表示。
- 4量子化レベルを選択。8GBのRAM用:Q4_K_M(7Bモデルの場合~4.5GB)を選択。16GBのRAM用:Q5_K_MまたはQ6_Kの方が品質が良い。
- 5ダウンロード矢印をクリック。プログレスはダウンロードタブに表示。
LM StudioでモデルとのチャットをNative開始する方法
- 1左サイドバーのチャットタブ(吹き出しアイコン)をクリック。
- 2チャットウィンドウの上部で、モデルセレクタードロップダウンをクリックしてダウンロード済みモデルを選択。
- 3LM Studioはモデルをメモリにロード--これはモデルサイズとハードウェアによって5~30秒かかる。
- 4下部の入力フィールドにメッセージを入力し、Enterキーを押すか送信をクリック。
- 5モデルの応答はトークンバイトークンでストリーム配信。生成速度はウィンドウの下部のステータスバーに表示。
LM Studioでモデル設定を調整する方法
チャットタブの右パネルは主要な推論パラメータを公開:
- Temperature(デフォルト0.8):応答のランダム性を制御。低い値(0.1~0.4)はより焦点を絞った、予測可能な出力を生成。高い値(0.8~1.2)はより多様で創造的な出力を生成。
- Context Length(デフォルト4096トークン):モデルが処理できる最大会話履歴。より長いコンテキストはより多くのRAMを使用。ほとんどの7Bモデルは4096~8192トークンをサポート。
- GPU Layers(macOS/Linux/Windows with GPU):モデルレイヤーの数をGPUにオフロード。GPU用に十分なVRAMがあれば、高速推論のため最大に設定。
- System Prompt:すべての会話の前に付加される永続的な指示。これを使用してモデルの役割または動作を設定。
LM StudioローカルサーバーをNative有効にする方法
LM StudioにはOpenAI APIをミミックするローカルサーバーが含まれている。OpenAIで動作するアプリケーションはこのサーバーを通じてローカルモデルを使用可能:
- 1左サイドバーのローカルサーバータブ(「<->」アイコン)をクリック。
- 2上部のモデルドロップダウンでモデルを選択。
- 3「サーバーを開始」をクリック。サーバーはhttp://localhost:1234で起動。
- 4アプリケーションは`base_url = "http://localhost:1234/v1"`を設定し、APIキーとして任意の文字列を使用する必要がある(サーバーは任意の値を受け入れる)。
Pythonを介してLM Studioに接続する方法
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="local-model",
messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)LM StudioまたはOllamaを選択する方法
| 要素 | LM Studio | Ollama |
|---|---|---|
| インターフェース | グラフィカルデスクトップアプリ | ターミナル + API |
| モデルソース | Hugging Face(任意のGGUFモデル) | Ollama Library(キュレーション、~200モデル) |
| APIポート | localhost:1234 | localhost:11434 |
| モデル管理 | ファイルサイズ情報を含むGUI Browser | CLIコマンド(ollama pull、list、rm) |
| Automation | 制限(GUI-focused) | 強い(Scripting、Docker、CI) |
| 最適ユースケース | 初心者、GUIユーザー、モデル探索 | 開発者、Automation、Server deployments |
LM Studioの一般的な問題をNativeトラブルシューティングする方法
LM Studioが「モデルをロードするメモリが不足しています」と表示される
モデルには利用可能なメモリより多いRAMが必要。他のアプリケーションを閉じてメモリを解放するか、より小さい量子化を選択(Q4_K_MではなくQ3_K_S)。一般的なルール:推定RAMを取得するためにモデルファイルサイズに1.2を掛ける。4.5GBファイルは~5.4GB空きRAMが必要。
モデルが非常にゆっくり生成される(秒あたり5トークン未満)
モデルはCPU上で完全に実行されている。右パネルのGPU Layersをチェック--0が表示される場合、GPUは使用されていない。macOSでは、LM StudioはApple SiliconのMetalを自動的に有効にする。Windows/Linuxの場合、NVIDIAドライバーが最新であることを確認し、GPU LayersをNathan大値に増やす。
LM Studio検索で特定のモデルが見つからない
LM Studioはこれ以降GGUFファイルをHugging Faceで検索。モデルが表示されない場合は、Hugging FaceリポジトリNativeを直接検索(例:「bartowski/Llama-3.1-8B-Instruct-GGUF」)。新しいモデルの一部はまだインデックス化されていない可能性。
ローカルサーバーが「モデルが見つかりません」エラーを返す
モデルは、サーバーが応答する前にローカルサーバータブにロードされている必要がある。ローカルサーバータブを開き、ドロップダウンからモデルを選択し、サーバーの開始をクリック。APIリクエストのモデル名は任意の文字列にできる--LM Studioは現在ロードされているモデルを使用。
プライバシーに敏感なユースケース向けのLM Studio
日本(METI):METI AI Governance Guidelinesは、AI推論がどこで発生するかを文書化することを要求。LM Studioは固定パスをディスク上に保持--すべての推論はデバイス、モデルファイル、およびバージョンに追跡可能。日本の企業チームは、機密規制およびコンプライアンス作業のためのゼロ出口文書分析ツールとしてLM Studioを使用。METI要件では、リモートAPI呼び出しなしで、オンプレミス推論実装が必須。
東アジア地域:LM Studioは、Hugging Face検索を通じてQwen2.5モデルをネイティブにサポート--モデルブラウザで「qwen2.5」を検索してすべての利用可能なサイズを見つける。中国語テキストワークロードの場合、Qwen2.5 7Bまたは14Bは、同じパラメータ数の西部トレーニングモデルよりも中国語テキストで30~40%優れたトークン効率を提供。
データセキュリティ:LM Studioのすべての推論はローカルで実行され、外部API呼び出しはない。これは、データセキュリティ法(数据安全法)など、厳密なローカルデータ処理要件を持つすべての地域で完全にコンプライアント。
LM Studioをインストールするときの一般的な間違いは何ですか?
- 選択したモデルに十分なシステムRAMを割り当てていない。 モデルファイルサイズをチェックして1.2を掛ける--これは必要な最小空きRAM。4.5GB Q4_K_M 7Bモデルは~5.4GB空きRAMが必要。
- GPU VRAMにはまだ大きすぎる事前量子化モデルを使用している。 モデルがVRAMを超える場合、LM StudioはCPU推論にフォールバック--5~10倍低速。ダウンロード前にファイルサイズとGPU VRAMを確認。
- CPU専用システムから大規模モデルからの即座の応答を期待している。 7Bモデルは秒あたり8~20トークンを生成--200トークン応答は10~25秒かかる。これは正常。CPU専用マシンで高速応答を見つけるためには3Bモデルを使用。
- NVIDIAマシンのGPU Layersを0に設定している: LM StudioはCUDAを自動検出すべきだが、新規インストール後に時々デフォルト0 GPUレイヤーになる。モデルパネルを開く→GPU Layers→最大値にドラッグ。RTX 4070(12GB VRAM)では、7Bモデルで最大レイヤーは8 tok/sec(CPU)から80+ tok/sec(GPU)に移動--10倍の違い。
- FP16モデルが利用可能であるときQ4_K_Mをダウンロードしている。 FP16モデルはチャットタスク用のNativeQ4_K_Mより2倍大きい。7BモデルのFP16は~14GB;同じモデルがQ4_K_MではNative~4.5GB。より高い精度を使用する特定の理由がない限り、常にデフォルトとしてQ4_K_Mをダウンロード。
関連読み物
- ローカルLLMとは何ですか? -- コア概念とコンポーネント
- はじめてのローカルLLMを実行 -- インストール後の次のステップ
- Ollamaのインストール方法 -- LM Studioのターミナルベースの代替案
- 初心者向けベストローカルLLMモデル -- ハードウェアごとのモデル推奨
- ローカルLLMハードウェアガイド2026 -- LM StudioでNativeハードウェアから最高のパフォーマンスを取得するためのGPUおよびRAM推奨
- ローカルLLM対クラウドAPI -- ローカル推論がNativeハードウェアの正しい選択であるときを決定するためのコストと速度の比較
- 2026年コーディング用ローカルLLM比較 — Qwen2.5-CoderとDeepSeekのベンチマーク
FAQ
LM Studioが「モデルをロードするメモリが不足しています」と表示される
モデルには利用可能なメモリより多いRAMが必要。他のアプリケーションを閉じてメモリを解放するか、より小さい量子化を選択。一般的なルール:推定RAMを取得するためにモデルファイルサイズに1.2を掛ける。4.5GBファイルは~5.4GB空きRAMが必要。
モデルが非常にゆっくり生成される(秒あたり5トークン未満)
モデルはCPU上で完全に実行。右パネルのGPU Layersをチェック--0が表示される場合、GPUは使用されていない。macOSでは、LM StudioはApple SiliconのMetalを自動的に有効。Windows/Linuxの場合、NVIDIAドライバーが最新であることを確認し、GPU Layersを最大値に増やす。
LM Studio検索で特定のモデルが見つからない
LM Studioはこれ以降GGUFファイルをHugging Faceで検索。モデルが表示されない場合は、Hugging FaceリポジトリNameを直接検索。新しいモデルの一部はまだインデックス化されていない可能性。
ローカルサーバーが「モデルが見つかりません」エラーを返す
モデルは、サーバーが応答する前にローカルサーバータブにロードされている必要がある。ローカルサーバータブを開き、ドロップダウンからモデルを選択し、サーバーの開始をクリック。APIリクエストのモデル名は任意の文字列にできる。
LM Studioは無料ですか?
はい。LM Studioは個人使用のための機能制限なし無料。商用ライセンスはビジネス使用に必要。2026年4月の時点で、個人層は使用量の上限、モデル制限、または透かしはない。
LM StudioとOllamaの違いは何ですか?
LM Studioはグラフィカルデスクトップアプリ。視覚的インターフェースを通じてモデルを閲覧およびダウンロード、ワンクリックでチャット開始、スライダーで設定を調整。Ollamaはコマンドラインツールおよびバックグラウンドサービス--1つのコマンドで設定するのが高速。
LM Studioはどのモデルで動作しますか?
Hugging Faceからの任意のGGUF形式モデル。人気のある選択肢には、Llama 3.1 8B、Qwen2.5 7B、Mistral 7B、Phi-4 Mini、およびGemma 3 9Bが含まれる。Discover tabでモデル名で検索。LM Studioはダウンロード前に各量子化レベルのファイルサイズを表示。
LM StudioはGPUを自動的に使用していますか?
Apple Siliconでははい--Metal加速はデフォルトで有効。Windows and Linux with NVIDIAの場合、ドライバーがインストールされている場合、LM StudioはCUDAを自動検出。モデルパネルのGPU Layers設定をチェック--GPU上に0レイヤーが表示される場合、GPUは使用されていない。
LM Studioはダウンロードモデルをどこに保存していますか?
macOS:~/Library/Application Support/LM Studio/Models/lmstudio-community/。Windows:%USERPROFILE%.cachelm-studiomodels。Linux:~/.cache/lm-studio/models/。LM Studio Settings→General→Model Storage Directoryでストレージロケーションを変更。
VS CodeやCursorでLM Studioを使用できますか?
はい。localhost:1234でLM Studio localサーバーを起動し、IDE拡張を設定してhttp://localhost:1234/v1をAPI基本URLとして使用し、API キーとして任意の文字列を使用。OpenAI互換APIをサポートするVS Code拡張はLM Studioでボックスから動作。
ソース
- LM Studio. (2026). "LM Studioドキュメンテーションおよびリリースノート。" lmstudio.ai. https://lmstudio.ai/docs -- 公式インストールガイド、APIドキュメンテーション、およびハードウェア互換情報。
- Hugging Face. (2026). "GGUFモデルハブ。" https://huggingface.co/models?library=gguf -- LM Studio model browserと互換性のあるGGUF-量子化モデルの完全ディレクトリ。
- llama.cppコントリビューター。(2026). "llama.cpp -- CPU/GPU推論エンジン。" https://github.com/ggerganov/llama.cpp -- LM Studioによって使用される推論バックエンド、ハードウェア互換性およびパフォーマンスデータ付き。