地方在住IT系ニート

bkds

OllamaでローカルLLMを動かす方法|GPU別おすすめモデル完全ガイド

Ollamaとは

Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に導入・運用できるオープンソースツールです。 ChatGPTのような高性能なAIを、インターネットに接続することなく自分のPC上で動作させることができます。

なぜローカルLLMを使うのか?

対応OSは Windows, macOS, Linux の3種類に対応しており、導入のハードルが非常に低くなっています。

インストール方法

Windows / macOS

Ollama公式サイトからインストーラーをダウンロードして実行するだけで完了します。

Linux

以下のコマンドをターミナルで実行してください。

curl -fsSL https://ollama.com/install.sh | sh

インストール後、正常に動作しているか確認します。

ollama --version

モデルの基本的な使い方

Ollamaの最大の特徴は、ollama run コマンド一つで「モデルのダウンロード」から「対話の開始」まで完結することです。

# モデルのダウンロードと起動(例:Llama 3.1 8B)
ollama run llama3.1:8b

# ダウンロード済みモデルの一覧表示
ollama list

# モデルの削除
ollama rm llama3.1:8b

VRAMと動かせるモデルの関係

LLMの動作速度を決定付ける最大の要因は、GPUのVRAM(ビデオメモリ)容量です。

量子化とは?

モデルを軽量化する技術です。Q4_K_M(4ビット量子化)が、品質を維持しつつメモリ消費を抑えられるため、最も一般的に推奨されます。

量子化レベル特徴メモリ消費
Q4_K_Mバランス最高。標準的な利用に最適
Q5_K_M品質を少し向上。Q4より15〜20%多く必要
Q8_0ほぼ劣化なしの高精度。メモリ消費が激しい

VRAM別おすすめモデル一覧

VRAM 6GB(GTX 1660, RTX 3060 6GBなど)

3B〜4Bクラスの軽量モデルが快適に動作します。

モデルコマンド特徴
Gemma3 4Bollama run gemma3:4bGoogle製。軽量ながら高い汎用性を持ち、6GBでも高速
Phi-4 Miniollama run phi4-miniMicrosoft製。論理推論やコーディングに非常に強い
Llama 3.2 3Bollama run llama3.2:3bMeta製。非常に軽量で、シンプルなタスクに最適

VRAM 8GB(RTX 3070, RTX 4060など)

7B〜9Bクラスの標準的なモデルが快適に動作します。

モデルコマンド特徴
Llama 3.1 8Bollama run llama3.1:8b世界標準の汎用モデル。迷ったらまずはこれ
Qwen3 8Bollama run qwen3:8b日本語性能が極めて高く、自然な日本語対話が可能
Qwen3.5 9Bollama run qwen3.5:9bQwen3の進化版。推論能力と多言語対応が向上
Mistral 7Bollama run mistral:7b安定感のある高速モデル。シンプルなBot構築に最適

VRAM 12GB(RTX 3060 12GB, RTX 4070など)

12B〜14Bクラスの中規模モデルが動作し、回答の質が一段階上がります。

モデルコマンド特徴
Gemma3 12Bollama run gemma3:12b12GB VRAMユーザーの最適解。高い知能と速度を両立
Qwen3 14Bollama run qwen3:14b高度な日本語処理が可能。複雑な指示にも対応
Qwen3.5 9B (Q8_0)ollama run qwen3.5:9b-q8_0高精度量子化版。12GBあれば最高の品質で動作
Phi-4 14Bollama run phi4:14b推論・数学・コード生成に特化した高性能モデル
DeepSeek-R1 14Bollama run deepseek-r1:14b思考プロセスを出力する推論特化型。論理問題に強い

用途別おすすめモデルまとめ

用途推奨モデル理由
日本語での日常会話Qwen3 8B / 14B日本語の自然さと知識量が非常に高い
プログラミング補助Qwen2.5-Coder 7Bコード生成能力に特化しており、正確性が高い
論理パズル・数学DeepSeek-R1 14B思考ステップを踏むため、正解率が高い
超高速レスポンスGemma3 4B低リソースで動作し、レスポンスが非常に速い

番外編:gpt-oss-20b(OpenAIオープンウェイトモデル)

OpenAIが公開したオープンウェイトモデルをOllamaで利用可能です。

ollama run gpt-oss:20b

※VRAM 16GB以上を推奨します。12GBでも動作しますが、速度が極端に低下する場合があるためご注意ください。

よくある質問 (FAQ)

Q. モデルの動作が遅いと感じる場合は? A. VRAM容量を超えたモデルを動かそうとしていないか確認してください。また、バックグラウンドでVRAMを消費しているアプリ(ブラウザのハードウェア加速など)を閉じると改善することがあります。

Q. 特定のモデルをカスタマイズしたい場合は? A. Modelfile を作成し、ollama create コマンドを使うことで、システムプロンプト(役割設定)を固定した自分専用のモデルを作成できます。

まとめ

Ollamaを使えば、複雑な設定なしにローカルLLMの世界に飛び込めます。

<-- Back to home
にほんブログ村 IT技術ブログ IT技術メモへ PVアクセスランキング にほんブログ村