重要なポイント
- LM Studioの高度な設定は「設定」→「サーバー」タブにあります(GPUオプション、コンテキスト長)。
- GPUメモリはVRAMの10%から100%まで手動で設定できます。値を下げると他のアプリ用にGPUが解放されます。
- コンテキストウィンドウ(モデルが処理できるトークン数)はモデルの上限まで拡張できますが、VRAMを多く消費します。
- ローカルAPI(ベータ版)はlocalhost:1234でOpenAI互換エンドポイントを公開します。
- 2026年4月現在、LM StudioにはLoRAファインチューニングが搭載されていません。代わりにText-Generation-WebUIやトレーニングスクリプトを使用してください。
パフォーマンス指標クイック一覧
- GPUメモリ: VRAMの10%から100%まで調整可能。50%割り当てでVRAM消費を約半分に削減
- コンテキストウィンドウ: モデルデフォルトから4k、8k、16k、32kトークンに拡張可能。コンテキスト2倍 = VRAM2倍
- 量子化の影響: Q4_K_MはFP16比で約40%少ないVRAM、品質損失は<1%
- APIレイテンシ: Llama 3.2 3Bで120-180ms、7Bで280-420ms、13Bで680-950ms(RTX 3080)
- バッチ処理: APIループ経由で同時リクエストあたり8-12トークン/秒のスループット
- GPU割り当て: 50%未満では速度が5-10倍低下(CPUフォールバックのオーバーヘッド)
LM StudioでGPUメモリを設定する方法
LM StudioはモデルのGPU VRAMの使用量を制御できます。
- 1. 設定をクリック(左下の歯車アイコン)。
- 2. GPU加速スライダーを見つける(デフォルト:100%)。
- 3. 50%にスライドすると、GPUはVRAMの50%を使用し、残りを他のアプリケーション用に解放します。
- 4. GPU割り当て低下 = 推論速度が遅くなるが、同時実行アプリのヘッドルームが増える。
- 5. 再起動をクリックして変更を適用します。
コンテキストウィンドウを拡張する方法
コンテキストウィンドウはモデルが読み取れる最大トークン(テキスト)数です。拡張すると長い会話が可能になりますが、VRAMを多く消費します。
- 1. 設定 → サーバーを開く。
- 2. コンテキスト長を探す(デフォルト:モデルの組み込み制限)。
- 3. 4k、8k、16k、32kに増やす(モデルのサポートに依存)。
- 4. コンテキスト長を2倍にするとVRAM使用量が約2倍になります。
- 5. 長いプロンプトでチャットを開始して拡張コンテキストをテストします。
LM Studioのローカルリローカルオルバースト(ベータ)を有効にする方法
LM Studioのローカルリ(2026年4月時点でベータ版)はOpenAIのAPIを模倣します。
# 1. LM Studio 設定 → サーバーを開く
# 2. "Enable local API server" をオンにする
# 3. APIはhttp://localhost:1234/v1で動作
# 4. Ollamaと同様に使用:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="不要"
)
response = client.chat.completions.create(
model="llama-3.2-3b-gguf",
messages=[{"role": "user", "content": "こんにちは"}]
)
print(response.choices[0].message.content)LM Studioでモデルをファインチューニングできますか?
2026年4月現在、LM StudioにはLoRAファインチューニングが搭載されていません。 ファインチューニングには以下を使用してください:
- Text-Generation-WebUI(LoRAに最も簡単)
- LLaMA-Factory(高度、本番向け)
- unsloth(最速、VRAM使用最適化)
LM Studioは事前トレーニング済みLoRAアダプターを適用するのに適していますが、新しいものをトレーニングするためではありません。将来のバージョンでLoRAトレーニングが追加される可能性があります。
LM Studioでバッチ推論を実行する方法
バッチ推論とは、レスポンスを待たずに複数のプロンプトを処理することです。 LM Studioには組み込みのバッチモードがありませんが、APIまたはPythonループでシミュレートできます:
# Python: LM Studio API経由でバッチ推論
from openai import OpenAI
import json
client = OpenAI(base_url="http://localhost:1234/v1", api_key="x")
prompts = [
"2+2は何ですか?",
"量子コンピューティングを説明して",
"トランスフォーマーの仕組みは?"
]
results = []
for prompt in prompts:
response = client.chat.completions.create(
model="llama-3.2-3b-gguf",
messages=[{"role": "user", "content": prompt}]
)
results.append({
"prompt": prompt,
"response": response.choices[0].message.content
})
with open("batch_results.json", "w") as f:
json.dump(results, f, indent=2)LM Studioでモデル速度をベンチマークする方法
LM Studioには組み込みのベンチマークツールがあります:
- 1. LM Studioでモデルをロードします。
- 2. 設定 → ベンチマークタブをクリック。
- 3. ベンチマーク実行をクリック - あなたの特定のハードウェアのトークン/秒を測定します。
- 4. 結果はチャットのオーバーヘッドなしのベースラインパフォーマンスを示します。
- これにより、本番環境にデプロイする前の期待速度を理解できます。
LM Studio高度な機能の一般的なミス
- GPU割り当てを下げすぎてモデルのせいにする。 GPUを10%に設定すると、ほとんどCPUで動作するため推論が5-10倍遅くなります。まず80%以上のGPU割り当てでテストしてください。
- モデルのサポート範囲を超えてコンテキストウィンドウを拡張する。 モデルには最大サポートコンテキスト長があります。それを超えても機能が追加されず、VRAMを無駄に使うだけです。
- LM StudioでLoRAトレーニングを期待する。 2026年4月現在、利用できません。Text-Generation-WebUIやトレーニングライブラリを使用してください。
- APIには明示的な有効化が必要なことを忘れる。 ローカルAPIはデフォルトでオフです。設定 → サーバーで有効にしてください。
LM Studio高度な機能についてのよくある質問
LM Studio APIとOllama APIの違いは何ですか?
両方ともOpenAI互換エンドポイントを公開します。LM Studio APIはlocalhost:1234、Ollamaはlocalhost:11434で動作します。どちらも同様に機能します。チャットに好みのツールを選んでください。
LM Studio APIを本番環境で使用できますか?
動作しますが、Ollama APIの方が成熟しています。LM Studio APIはベータ版です。本番環境では、Ollamaの方が安全な選択肢です。
GPU割り当てを下げるとVRAM要件が下がりますか?
はい。GPU割り当てを50%に下げると、VRAMの使用量が約半分になりますが、モデルが部分的にCPUで動作するため推論が2-5倍遅くなります。
コンテキストウィンドウをいつ拡張すべきですか?
ユースケースがモデルのデフォルト(通常2k-4kトークン)より長いドキュメントや会話を必要とする場合に拡張します。ドキュメント分析、コードレビュー、複数ターンの会話には8k-16kコンテキストが推奨されます。十分なVRAMがある場合のみ拡張してください(16GB以上のRAM推奨)。
本番環境にはLM Studio APIとOllamaのどちらを使うべきですか?
本番デプロイにはOllama APIを使用してください。Ollamaはより成熟して安定しており、モデルサービング専用に設計されています。LM Studio APIは開発とテスト向けです。LM Studio UIを好む場合、OllamaをバックグラウンドでLM StudioのチャットとExploration用に並行して実行できます。
出典
- LM Studioドキュメント -- lmstudio.ai/docs
- LM Studioローカルサーバー(ベータ版)-- lmstudio.ai/docs/local-server/overview
- OpenAI API互換性 -- platform.openai.com/docs/api-reference