OllamaでローカルLLMを動かす方法｜GPU別おすすめモデル完全ガイド

2026/02/24

Ollamaとは

Ollamaは、ローカル環境でLLM（大規模言語モデル）を簡単に導入・運用できるオープンソースツールです。 ChatGPTのような高性能なAIを、インターネットに接続することなく自分のPC上で動作させることができます。

対応OSは Windows, macOS, Linux の3種類に対応しており、導入のハードルが非常に低くなっています。

Ollama公式サイトからインストーラーをダウンロードして実行するだけで完了します。

以下のコマンドをターミナルで実行してください。

curl -fsSL https://ollama.com/install.sh | sh

インストール後、正常に動作しているか確認します。

ollama --version

Ollamaの最大の特徴は、ollama run コマンド一つで「モデルのダウンロード」から「対話の開始」まで完結することです。

# モデルのダウンロードと起動（例：Llama 3.1 8B）
ollama run llama3.1:8b

# ダウンロード済みモデルの一覧表示
ollama list

# モデルの削除
ollama rm llama3.1:8b

LLMの動作速度を決定付ける最大の要因は、GPUのVRAM（ビデオメモリ）容量です。

モデルを軽量化する技術です。Q4_K_M（4ビット量子化）が、品質を維持しつつメモリ消費を抑えられるため、最も一般的に推奨されます。

3B〜4Bクラスの軽量モデルが快適に動作します。

モデル	コマンド	特徴
Gemma3 4B	`ollama run gemma3:4b`	Google製。軽量ながら高い汎用性を持ち、6GBでも高速
Phi-4 Mini	`ollama run phi4-mini`	Microsoft製。論理推論やコーディングに非常に強い
Llama 3.2 3B	`ollama run llama3.2:3b`	Meta製。非常に軽量で、シンプルなタスクに最適

7B〜9Bクラスの標準的なモデルが快適に動作します。

12B〜14Bクラスの中規模モデルが動作し、回答の質が一段階上がります。

OpenAIが公開したオープンウェイトモデルをOllamaで利用可能です。

ollama run gpt-oss:20b

※VRAM 16GB以上を推奨します。12GBでも動作しますが、速度が極端に低下する場合があるためご注意ください。

Q. モデルの動作が遅いと感じる場合は？ A. VRAM容量を超えたモデルを動かそうとしていないか確認してください。また、バックグラウンドでVRAMを消費しているアプリ（ブラウザのハードウェア加速など）を閉じると改善することがあります。

Q. 特定のモデルをカスタマイズしたい場合は？ A. Modelfile を作成し、ollama create コマンドを使うことで、システムプロンプト（役割設定）を固定した自分専用のモデルを作成できます。

Ollamaを使えば、複雑な設定なしにローカルLLMの世界に飛び込めます。