OllamaでローカルLLMを動かすメモ【GPUごとのおすすめモデル一覧】

2026/02/24

Ollamaとは

Ollamaは、ローカル環境でLLM（大規模言語モデル）を簡単に動かせるオープンソースツールです。 ChatGPTのようなAIを、インターネットに接続せず自分のPC上で動かすことができます。

プライバシーを守りながらAIを使いたい人や、APIコストをかけずに試したい人に向いています。

対応OSは以下の通りです。

Ollama公式サイトからインストーラーをダウンロードして実行します。

下記のコマンドでインストールできます。

curl -fsSL https://ollama.com/install.sh | sh

インストール後、以下のコマンドでバージョンを確認します。

ollama --version

モデルのダウンロードと起動はollama runコマンド1つで行えます。

# モデルのダウンロードと起動
ollama run llama3.1:8b

# ダウンロード済みモデルの一覧表示
ollama list

# モデルの削除
ollama rm llama3.1:8b

LLMを動かす上で最も重要なのがGPUのVRAM容量です。モデルをVRAM内に収めることができると高速に動作しますが、VRAM不足の場合はRAMにオフロードされ、速度が大幅に低下します。

量子化（Q4_K_Mなど）を使うことでVRAM使用量を削減できます。ほとんどのユーザーにはQ4_K_Mがバランス面でおすすめです。

量子化	特徴
Q4_K_M	VRAMと品質のバランスが最も良い。ほとんどの用途に最適
Q5_K_M	Q4_K_Mより少し高品質。VRAMは15〜20%多く必要
Q8_0	高品質だがVRAMを大きく消費する

3B〜4Bクラスのモデルが動作します。7B以上は量子化が必要です。

モデル	コマンド	特徴
Gemma3 4B	`ollama run gemma3:4b`	Googleの6Bモデル。6GBでも快適に動作
Phi-4 Mini	`ollama run phi4-mini`	Microsoftの軽量モデル。コーディング・推論が得意
Llama 3.2 3B	`ollama run llama3.2:3b`	Metaの軽量モデル。手軽に試したい場合に最適

7B〜8Bクラスのモデルが快適に動作します。

モデル	コマンド	特徴
Llama 3.1 8B	`ollama run llama3.1:8b`	Metaの汎用モデル。バランスが良く初心者におすすめ
Qwen3 8B	`ollama run qwen3:8b`	日本語性能が高く、日本語での利用に最適
Qwen3.5 9B	`ollama run qwen3.5:9b`	Qwen3の後継。多言語・推論性能がさらに向上
Mistral 7B	`ollama run mistral:7b`	高速で安定。軽量なチャットボット作成に向いている

12〜14Bクラスのモデルも動作し、より高品質な回答が期待できます。

モデル	コマンド	特徴
Gemma3 12B	`ollama run gemma3:12b`	Googleの12Bモデル。12GB VRAMの定番
Qwen3 14B	`ollama run qwen3:14b`	日本語に強く高い性能を持つ
Qwen3.5 9B (Q8_0)	`ollama run qwen3.5:9b-q8_0`	高品質な量子化でVRAM 12GBに最適。実際に使用して動作を確認済み
Phi-4 14B	`ollama run phi4:14b`	Microsoftのモデル。推論・コーディングが得意
DeepSeek-R1 14B	`ollama run deepseek-r1:14b`	推論特化モデル。数学・論理問題に強い

OpenAIが公開したオープンウェイトモデルで、Ollamaで動かすことができます。

ollama run gpt-oss:20b

MXFP4量子化済みの状態でもVRAM 16GB以上が推奨です。 VRAM 12GBでも動作しますが、速度が実用に耐えないケースが多いため注意が必要です。

Ollamaを使えば、コマンド1つでローカルLLMを手軽に試すことができます。 VRAM 8GBあれば実用的なモデルが動作し、12GBあればさらに高品質なモデルを選べます。

まずはollama run qwen3:8bで日本語チャットを試してみるのがおすすめです。