OllamaでローカルLLMを動かすメモ【GPUごとのおすすめモデル一覧】
Ollamaとは
Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に動かせるオープンソースツールです。 ChatGPTのようなAIを、インターネットに接続せず自分のPC上で動かすことができます。
プライバシーを守りながらAIを使いたい人や、APIコストをかけずに試したい人に向いています。
対応OSは以下の通りです。
- Windows
- macOS
- Linux
インストール方法
Windows / macOS
Ollama公式サイトからインストーラーをダウンロードして実行します。
Linux
下記のコマンドでインストールできます。
curl -fsSL https://ollama.com/install.sh | sh
インストール後、以下のコマンドでバージョンを確認します。
ollama --version
モデルの基本的な使い方
モデルのダウンロードと起動はollama runコマンド1つで行えます。
# モデルのダウンロードと起動
ollama run llama3.1:8b
# ダウンロード済みモデルの一覧表示
ollama list
# モデルの削除
ollama rm llama3.1:8b
VRAMと動かせるモデルの関係
LLMを動かす上で最も重要なのがGPUのVRAM容量です。 モデルをVRAM内に収めることができると高速に動作しますが、VRAM不足の場合はRAMにオフロードされ、速度が大幅に低下します。
量子化(Q4_K_Mなど)を使うことでVRAM使用量を削減できます。 ほとんどのユーザーにはQ4_K_Mがバランス面でおすすめです。
| 量子化 | 特徴 |
|---|---|
| Q4_K_M | VRAMと品質のバランスが最も良い。ほとんどの用途に最適 |
| Q5_K_M | Q4_K_Mより少し高品質。VRAMは15〜20%多く必要 |
| Q8_0 | 高品質だがVRAMを大きく消費する |
VRAM別おすすめモデル一覧
VRAM 6GB(GTX 1660、RTX 3060など)
3B〜4Bクラスのモデルが動作します。7B以上は量子化が必要です。
| モデル | コマンド | 特徴 |
|---|---|---|
| Gemma3 4B | ollama run gemma3:4b | GoogleのGemini系モデル。6GBでも快適に動作 |
| Phi-4 Mini | ollama run phi4-mini | Microsoftの軽量モデル。コーディング・推論が得意 |
| Llama 3.2 3B | ollama run llama3.2:3b | Metaの軽量モデル。手軽に試したい場合に最適 |
VRAM 8GB(RTX 3070、RTX 4060など)
7B〜8Bクラスのモデルが快適に動作します。
| モデル | コマンド | 特徴 |
|---|---|---|
| Llama 3.1 8B | ollama run llama3.1:8b | Metaの汎用モデル。バランスが良く初心者におすすめ |
| Qwen3 8B | ollama run qwen3:8b | 日本語性能が高く、日本語での利用に最適 |
| Mistral 7B | ollama run mistral:7b | 高速で安定。要約やメール作成に向いている |
VRAM 12GB(RTX 3060 12GB、RTX 4070など)
12〜14Bクラスのモデルも動作し、より高品質な回答が期待できます。
| モデル | コマンド | 特徴 |
|---|---|---|
| Gemma3 12B | ollama run gemma3:12b | GoogleのGemini系モデル。12GB VRAMの定番 |
| Qwen3 14B | ollama run qwen3:14b | 日本語に強く高い性能を持つ |
| Phi-4 14B | ollama run phi4:14b | Microsoftのモデル。推論・コーディングが得意 |
| DeepSeek-R1 14B | ollama run deepseek-r1:14b | 推論特化モデル。数学・論理問題に強い |
用途別おすすめモデル
| 用途 | おすすめモデル |
|---|---|
| 日本語チャット | Qwen3 8B / Qwen3 14B |
| コーディング補助 | Qwen2.5-Coder 7B |
| 推論・数学 | DeepSeek-R1 14B |
| 軽量・高速 | Gemma3 4B / Mistral 7B |
番外編:gpt-oss-20b(OpenAIのオープンウェイトモデル)
OpenAIが公開したオープンウェイトモデルで、Ollamaで動かすことができます。
ollama run gpt-oss:20b
MXFP4量子化済みの状態でもVRAM 16GB以上が推奨です。 VRAM 12GBでも動作しますが、速度が実用に耐えないケースが多いため注意が必要です。
まとめ
Ollamaを使えば、コマンド1つでローカルLLMを手軽に試すことができます。 VRAM 8GBあれば実用的なモデルが動作し、12GBあればさらに高品質なモデルを選べます。
まずはollama run qwen3:8bで日本語チャットを試してみるのがおすすめです。