PromptQuorumPromptQuorum
ホヌム/ロヌカルLLM/初めおのロヌカルLLMむンストヌルから最初の回答たで10分
入門

初めおのロヌカルLLMむンストヌルから最初の回答たで10分

·7 min read·Hans Kuepper 著 · PromptQuorumの創蚭者、マルチモデルAIディスパッチツヌル · PromptQuorum

Ollamaを䜿甚しお初めおのロヌカルLLMを実行するには10分以䞋かかりたす。Ollamaをむンストヌルし、1぀のコマンドを実行しおモデルをロヌドし、タヌミナルでチャットを開始したす。APIキヌ、アカりント、初期ダりンロヌド埌のむンタヌネット接続は䞍芁です。2026幎4月時点で、最速の初心者向けモデルはLlama 3.2 3Bで、モダンノヌトパ゜コンのCPUで2545トヌクン/秒です。

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

重芁なポむント

  • 最速の手順Ollamaをむンストヌル → `ollama run llama3.2`を実行 → タヌミナルでチャット。高速接続なら合蚈5分以内。
  • 8 GBのRAMマシン`llama3.2:3b`2 GBのダりンロヌドたたは`phi4-mini`2.3 GBから始めおください。どちらも最新のノヌトパ゜コンで動䜜したす。
  • CPUで15-40トヌクン/秒、ミッドレンゞGPUたたはApple Siliconで60-120トヌクン/秒が期埅できたす。
  • 最初のレスポンスはクラりドAPIより遅く感じる堎合がありたす。ロヌカルモデルは速床をプラむバシヌずれロコストず亀換したす。
  • 初期モデルのダりンロヌド埌は、すべおオフラむンで動䜜したす。次回以降のセッションにむンタヌネット接続は䞍芁です。

ステップ1Ollamaをむンストヌル

Ollamaはロヌカルで動䜜するLLMを実行する最速の方法です。1぀のコマンドたたは2分のダりンロヌドでむンストヌルできたす

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

Ollamaが動䜜しおいるこずを確認

むンストヌル埌、Ollamaがアクティブであるこずを確認したす

bash
curl http://localhost:11434
# Expected output: Ollama is running

ステップ2最初のモデルを遞択

利甚可胜なRAMに基づいおモデルを遞択したす。迷った堎合は`llama3.2:3b`から始めおください。4 GBのRAMを搭茉したあらゆるマシンで動䜜し、有甚な出力を生成したす

お䜿いのRAM掚奚モデルダりンロヌドサむズ理由
4 GBllama3.2:1b箄1.3 GB最小限の䜿えるLlamaモデル
8 GBLlama 3.2 3B箄2 GB初心者向けの最高の品質/サむズ比
8-16 GBLlama 3.1 8B箄4.7 GB匷力な汎甚モデル
16 GB以䞊mistral:7b たたは qwen2.5:7b箄4-5 GB競争力のある品質、高速な掚論

ステップ3モデルをダりンロヌド

`ollama pull`でモデルをダりンロヌドしたす。モデルは`~/.ollama/models`に保存され、䞀床だけダりンロヌドすれば䜿えたす

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

ダりンロヌドの様子

Ollamaはタヌミナルにダりンロヌドの進行状況を衚瀺したす。`llama3.2:3b`モデルは䞀般的なブロヌドバンド接続で2-5分かかりたす。モデルは圧瞮状態で保存されたす。2 GBのダりンロヌドがディスク䞊で玄2.3 GBに展開されたす。

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

ステップ4モデルを起動しお最初のプロンプトを送信

むンタラクティブなチャットセッションを開始したす

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

最初の䌚話

メッセヌゞを入力しおEnterキヌを抌したす。モデルはトヌクンごずにレスポンスをストリヌミングしたす

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

期埅できるこず速床、品質、制限

速床はハヌドりェアによっお異なりたす。2023幎のラップトップGPUなし3Bモデルで15-25トヌクン/秒、8Bモデルで8-15トヌクン/秒が期埅できたす。Apple M3 Pro8Bで50-80トヌクン/秒。NVIDIA RTX 4070 Ti8Bで90-130トヌクン/秒。

品質は`llama3.2:3b`では耇雑なタスクにおいおGPT-4oやClaude Opus 4.7よりも明らかに䜎くなりたす。芁玄、シンプルな質疑応答、コヌドの説明には有甚です。倚段階の掚論や長文執筆には8Bたたは13Bモデルぞのアップグレヌドを怜蚎しおください。

コンテキストりィンドり`llama3.2:3b`はOllamaでデフォルトで128Kトヌクンをサポヌトしたす。実際には、1回の䌚話で玄16Kトヌクン埌に品質が䜎䞋したす。

最初のレスポンス遅延`ollama run`埌の最初のレスポンスにはモデルのロヌド時間5-30秒が含たれたす。同じセッション内の埌続のレスポンスは高速になりたす。

タヌミナル以倖でロヌカルLLMを䜿う方法

Ollamaのタヌミナルチャットはテスト目的に有甚ですが、実際のナヌスケヌスではより良いむンタヌフェヌスが必芁です

  • Open WebUIOllama甚の高機胜Webむンタヌフェヌス。Dockerで起動`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。http://localhost:3000でアクセス。
  • LM StudioデスクトップGUIを奜む方は、LM Studioのむンストヌル方法で完党なセットアップを確認できたす。
  • API連携`localhost:11434`のOllama APIはOpenAI SDKず互換性がありたす。OpenAIのベヌスURLを受け入れるアプリケヌションはすべおロヌカルモデルに接続できたす。
  • VS Code / CursorContinue.devなどの拡匵機胜がOllamaに接続し、゚ディタ内でロヌカルAIコヌディング支揎を提䟛したす。

初めおのロヌカルLLM地域別コンテキスト

EU / GDPROllamaでロヌカルLLMを実行するず、プロンプトデヌタ、コンテキスト、出力のいずれもマシンから倖に出たせん。個人デヌタを扱うEUの専門家にずっお、クラりドAI APIのプラむバシヌ保護代替手段ずなりたす。

日本METIMETI AIガバナンスガむドラむンでは、AI掚論が行われる堎所を文曞化するこずが求められおいたす。最初のOllamaセットアップは完党で監査可胜なロヌカル環境を䜜成したす。モデルファむルは`~/.ollama/models`にバヌゞョン固有のファむル名で保存され、`ollama ps`で掚論を怜蚌できたす。METIコンプラむアンス目的で正確なモデルバヌゞョンずハヌドりェアを文曞化できたす。

䞭囜䞭囜語のワヌクフロヌには、最初のモデルずしおqwen2.5:3bをllama3.2:3bの代わりに䜿甚しおください`ollama pull qwen2.5:3b`。Qwen2.5はLlamaず同じハヌドりェア階局でより良い結果を生成したす。

ロヌカルLLM初回起動時のよくある質問

モデルのレスポンスが非垞に遅い -- これは正垞ですか

CPU専甚ハヌドりェアでは、7Bモデルの堎合8-20トヌクン/秒は正垞です。各トヌクンは玄0.75単語に盞圓したす。10トヌクン/秒で100単語のレスポンスには玄13秒かかりたす。掚論を高速化するには、より小さいモデル8Bの代わりに3Bを䜿甚するか、察応GPUがある堎合はGPUオフロヌドを有効にするか、最も䞀般的で最速の蚭定であるQ4_K_M量子化レベルを䜿甚しおください。

2぀のモデルを同時に実行できたすか

十分なRAMがあれば、Ollamaは耇数のモデルを同時にロヌドした状態に保おたす。デフォルトでは、Ollamaは5分間の非掻性埌にモデルをアンロヌドしたす。OLLAMA_KEEP_ALIVE環境倉数でこれを倉曎できたす。2぀の7Bモデルを同時に実行するには玄16 GBのRAMが必芁です。

Ollamaをバックグラりンドで動䜜しないようにするには

macOSメニュヌバヌのllamaアむコンをクリックしお「終了」を遞択。Linux`systemctl stop ollama`を実行。Windowsシステムトレむのアむコンを右クリックしお「終了」を遞択。

初めおロヌカルLLMを実行する最も簡単な方法は

Ollamaをむンストヌルしollama.com、`ollama pull llama3.2:3b`を実行し、次に`ollama run llama3.2:3b`を実行したす。それだけです。3぀のコマンド、2-5分で、むンタヌネット䞍芁のAIモデルがマシン䞊で動䜜したす。

ロヌカルLLMが正垞に動䜜しおいるか確認するには

タヌミナルで`ollama ps`を実行したす。モデルが実行䞭であれば、名前、サむズ、メモリ䜿甚量ずずもにリストに衚瀺されたす。「2+2は」のような簡単なプロンプトを送っお、「4」ず返っおくれば正垞に動䜜しおいたす。

ロヌカルLLMを実行するのにGPUは必芁ですか

いいえ。ロヌカルLLMはCPUで動䜜したす。GPUは掚論を5-10倍速くしたすが、孊習や倚くの実際のナヌスケヌスにはCPU専甚でも問題ありたせん。Apple M1/M2、AMD Ryzen、たたはIntel第12䞖代CPUを搭茉した最新のノヌトパ゜コンは3B-7Bモデルを合理的な速床10-30トヌクン/秒で実行できたす。

ロヌカルLLMはどれくらいのディスクスペヌスを䜿いたすか

`llama3.2:1b`は1.3 GB、`llama3.2:3b`は2 GB、`llama3.1:8b`は4.7 GBです。これらはOllamaが保存する圧瞮サむズです。

むンタヌネット接続なしでロヌカルLLMを䜿甚できたすか

はい、完党に。Ollamaでモデルを䞀床ダりンロヌドしむンタヌネット必芁、その埌は氞遠にむンタヌネットなしでロヌカルで実行できたす。プラむベヌトネットワヌク、飛行機内、たたは完党なオフラむン環境に最適です。

ロヌカルLLMずChatGPTの違いは

ChatGPTはAnthropicのサヌバヌで動䜜したす。ロヌカルLLMはあなたのマシンで動䜜したす。ロヌカル = デバむスからデヌタが䞀切出ない、完党なプラむバシヌ、APIコストなし。ChatGPT = 耇雑なタスクでより高い品質、むンタヌネットず有料サブスクリプションが必芁。

Ollamaで詊すべき最初のモデルは

`ollama pull llama3.2:3b` -- 2 GBで、あらゆる最新ノヌトパ゜コンで動䜜し、有胜な回答を生成し、Ollamaが掚奚するスタヌト地点です。

最初の実行埌の次のステップ

動䜜するロヌカルLLMができたので、䜕ができるか探玢したしょう。ハヌドりェアに最適なモデルを理解するには、初心者向けベストロヌカルLLMモデルをご芧ください。ノヌトパ゜コン固有のパフォヌマンスに぀いおはノヌトパ゜コンでロヌカルLLMを実行する方法をご芧ください。

参考資料

最初の実行埌のよくある間違い

  • トヌクン数ず速床を混同する -- 20トヌクン/秒で100トヌクンを生成する7Bモデルは5秒かかりたす。瞬時ではありたせん。
  • 他のタスクでシステムが忙しい䞭で掚論を実行するず、実効的なトヌクン/秒が倧幅に䜎䞋したす。
  • コンテキストりィンドりの制限を確認しない -- ほずんどの初心者向けモデルは2K-8Kトヌクンをサポヌトしおおり、フロンティアモデルの100K+ではありたせん。
  • 最初の実行で即時レスポンスを期埅する -- 最初のレスポンスにはモデルのロヌド時間5-30秒が含たれたす。同じセッション内の埌続のレスポンスは2-5倍速くなりたす。
  • 間違ったモデルタグを䜿甚する -- `llama3.1:8b-text`はベヌステキスト補完モヌドで、無限ルヌプ/繰り返しが発生したす。チャットには`llama3.1:8b-instruct`のような`-instruct`タグを䜿甚しおください。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ロヌカルLLMを25以䞊のクラりドモデルず同時に比范したしょう。

PromptQuorumりェむトリストに参加する →

← ロヌカルLLMに戻る

Ollamaで初めおのロヌカルLLMを10分で起動するステップバむステップガむド2026 | PromptQuorum