OllamaでローカルLLMを動かす方法|GPU別おすすめモデル完全ガイド
Ollamaとは
Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に導入・運用できるオープンソースツールです。 ChatGPTのような高性能なAIを、インターネットに接続することなく自分のPC上で動作させることができます。
なぜローカルLLMを使うのか?
- プライバシーの保護: データが外部サーバーに送信されないため、機密情報の入力も安心です。
- コストゼロ: API利用料金を気にせず、何度でも無料で試行錯誤できます。
- オフライン動作: インターネット環境がない場所でもAIを利用可能です。
- カスタマイズ性: 自分の用途に合わせたモデルの選択や調整が可能です。
対応OSは Windows, macOS, Linux の3種類に対応しており、導入のハードルが非常に低くなっています。
インストール方法
Windows / macOS
Ollama公式サイトからインストーラーをダウンロードして実行するだけで完了します。
Linux
以下のコマンドをターミナルで実行してください。
curl -fsSL https://ollama.com/install.sh | sh
インストール後、正常に動作しているか確認します。
ollama --version
モデルの基本的な使い方
Ollamaの最大の特徴は、ollama run コマンド一つで「モデルのダウンロード」から「対話の開始」まで完結することです。
# モデルのダウンロードと起動(例:Llama 3.1 8B)
ollama run llama3.1:8b
# ダウンロード済みモデルの一覧表示
ollama list
# モデルの削除
ollama rm llama3.1:8b
VRAMと動かせるモデルの関係
LLMの動作速度を決定付ける最大の要因は、GPUのVRAM(ビデオメモリ)容量です。
- VRAMに収まる場合: GPUによる高速演算が行われ、快適に動作します。
- VRAM不足の場合: メインメモリ(RAM)にデータが逃げる(オフロード)ため、動作速度が劇的に低下します。
量子化とは?
モデルを軽量化する技術です。Q4_K_M(4ビット量子化)が、品質を維持しつつメモリ消費を抑えられるため、最も一般的に推奨されます。
| 量子化レベル | 特徴 | メモリ消費 |
|---|---|---|
| Q4_K_M | バランス最高。標準的な利用に最適 | 低 |
| Q5_K_M | 品質を少し向上。Q4より15〜20%多く必要 | 中 |
| Q8_0 | ほぼ劣化なしの高精度。メモリ消費が激しい | 高 |
VRAM別おすすめモデル一覧
VRAM 6GB(GTX 1660, RTX 3060 6GBなど)
3B〜4Bクラスの軽量モデルが快適に動作します。
| モデル | コマンド | 特徴 |
|---|---|---|
| Gemma3 4B | ollama run gemma3:4b | Google製。軽量ながら高い汎用性を持ち、6GBでも高速 |
| Phi-4 Mini | ollama run phi4-mini | Microsoft製。論理推論やコーディングに非常に強い |
| Llama 3.2 3B | ollama run llama3.2:3b | Meta製。非常に軽量で、シンプルなタスクに最適 |
VRAM 8GB(RTX 3070, RTX 4060など)
7B〜9Bクラスの標準的なモデルが快適に動作します。
| モデル | コマンド | 特徴 |
|---|---|---|
| Llama 3.1 8B | ollama run llama3.1:8b | 世界標準の汎用モデル。迷ったらまずはこれ |
| Qwen3 8B | ollama run qwen3:8b | 日本語性能が極めて高く、自然な日本語対話が可能 |
| Qwen3.5 9B | ollama run qwen3.5:9b | Qwen3の進化版。推論能力と多言語対応が向上 |
| Mistral 7B | ollama run mistral:7b | 安定感のある高速モデル。シンプルなBot構築に最適 |
VRAM 12GB(RTX 3060 12GB, RTX 4070など)
12B〜14Bクラスの中規模モデルが動作し、回答の質が一段階上がります。
| モデル | コマンド | 特徴 |
|---|---|---|
| Gemma3 12B | ollama run gemma3:12b | 12GB VRAMユーザーの最適解。高い知能と速度を両立 |
| Qwen3 14B | ollama run qwen3:14b | 高度な日本語処理が可能。複雑な指示にも対応 |
| Qwen3.5 9B (Q8_0) | ollama run qwen3.5:9b-q8_0 | 高精度量子化版。12GBあれば最高の品質で動作 |
| Phi-4 14B | ollama run phi4:14b | 推論・数学・コード生成に特化した高性能モデル |
| DeepSeek-R1 14B | ollama run deepseek-r1:14b | 思考プロセスを出力する推論特化型。論理問題に強い |
用途別おすすめモデルまとめ
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 日本語での日常会話 | Qwen3 8B / 14B | 日本語の自然さと知識量が非常に高い |
| プログラミング補助 | Qwen2.5-Coder 7B | コード生成能力に特化しており、正確性が高い |
| 論理パズル・数学 | DeepSeek-R1 14B | 思考ステップを踏むため、正解率が高い |
| 超高速レスポンス | Gemma3 4B | 低リソースで動作し、レスポンスが非常に速い |
番外編:gpt-oss-20b(OpenAIオープンウェイトモデル)
OpenAIが公開したオープンウェイトモデルをOllamaで利用可能です。
ollama run gpt-oss:20b
※VRAM 16GB以上を推奨します。12GBでも動作しますが、速度が極端に低下する場合があるためご注意ください。
よくある質問 (FAQ)
Q. モデルの動作が遅いと感じる場合は? A. VRAM容量を超えたモデルを動かそうとしていないか確認してください。また、バックグラウンドでVRAMを消費しているアプリ(ブラウザのハードウェア加速など)を閉じると改善することがあります。
Q. 特定のモデルをカスタマイズしたい場合は?
A. Modelfile を作成し、ollama create コマンドを使うことで、システムプロンプト(役割設定)を固定した自分専用のモデルを作成できます。
まとめ
Ollamaを使えば、複雑な設定なしにローカルLLMの世界に飛び込めます。
- まずは
ollama run qwen3:8bで日本語性能を体感してみること。 - 自分のVRAM容量に合ったモデルを選び、快適なAI環境を構築してください。