地方在住IT系ニート

bkds

OllamaでローカルLLMを動かすメモ【GPUごとのおすすめモデル一覧】

Ollamaとは

Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に動かせるオープンソースツールです。 ChatGPTのようなAIを、インターネットに接続せず自分のPC上で動かすことができます。

プライバシーを守りながらAIを使いたい人や、APIコストをかけずに試したい人に向いています。

対応OSは以下の通りです。

インストール方法

Windows / macOS

Ollama公式サイトからインストーラーをダウンロードして実行します。

Linux

下記のコマンドでインストールできます。

curl -fsSL https://ollama.com/install.sh | sh

インストール後、以下のコマンドでバージョンを確認します。

ollama --version

モデルの基本的な使い方

モデルのダウンロードと起動はollama runコマンド1つで行えます。

# モデルのダウンロードと起動
ollama run llama3.1:8b

# ダウンロード済みモデルの一覧表示
ollama list

# モデルの削除
ollama rm llama3.1:8b

VRAMと動かせるモデルの関係

LLMを動かす上で最も重要なのがGPUのVRAM容量です。 モデルをVRAM内に収めることができると高速に動作しますが、VRAM不足の場合はRAMにオフロードされ、速度が大幅に低下します。

量子化(Q4_K_Mなど)を使うことでVRAM使用量を削減できます。 ほとんどのユーザーにはQ4_K_Mがバランス面でおすすめです。

量子化特徴
Q4_K_MVRAMと品質のバランスが最も良い。ほとんどの用途に最適
Q5_K_MQ4_K_Mより少し高品質。VRAMは15〜20%多く必要
Q8_0高品質だがVRAMを大きく消費する

VRAM別おすすめモデル一覧

VRAM 6GB(GTX 1660、RTX 3060など)

3B〜4Bクラスのモデルが動作します。7B以上は量子化が必要です。

モデルコマンド特徴
Gemma3 4Bollama run gemma3:4bGoogleのGemini系モデル。6GBでも快適に動作
Phi-4 Miniollama run phi4-miniMicrosoftの軽量モデル。コーディング・推論が得意
Llama 3.2 3Bollama run llama3.2:3bMetaの軽量モデル。手軽に試したい場合に最適

VRAM 8GB(RTX 3070、RTX 4060など)

7B〜8Bクラスのモデルが快適に動作します。

モデルコマンド特徴
Llama 3.1 8Bollama run llama3.1:8bMetaの汎用モデル。バランスが良く初心者におすすめ
Qwen3 8Bollama run qwen3:8b日本語性能が高く、日本語での利用に最適
Mistral 7Bollama run mistral:7b高速で安定。要約やメール作成に向いている

VRAM 12GB(RTX 3060 12GB、RTX 4070など)

12〜14Bクラスのモデルも動作し、より高品質な回答が期待できます。

モデルコマンド特徴
Gemma3 12Bollama run gemma3:12bGoogleのGemini系モデル。12GB VRAMの定番
Qwen3 14Bollama run qwen3:14b日本語に強く高い性能を持つ
Phi-4 14Bollama run phi4:14bMicrosoftのモデル。推論・コーディングが得意
DeepSeek-R1 14Bollama run deepseek-r1:14b推論特化モデル。数学・論理問題に強い

用途別おすすめモデル

用途おすすめモデル
日本語チャットQwen3 8B / Qwen3 14B
コーディング補助Qwen2.5-Coder 7B
推論・数学DeepSeek-R1 14B
軽量・高速Gemma3 4B / Mistral 7B

番外編:gpt-oss-20b(OpenAIのオープンウェイトモデル)

OpenAIが公開したオープンウェイトモデルで、Ollamaで動かすことができます。

ollama run gpt-oss:20b

MXFP4量子化済みの状態でもVRAM 16GB以上が推奨です。 VRAM 12GBでも動作しますが、速度が実用に耐えないケースが多いため注意が必要です。

まとめ

Ollamaを使えば、コマンド1つでローカルLLMを手軽に試すことができます。 VRAM 8GBあれば実用的なモデルが動作し、12GBあればさらに高品質なモデルを選べます。

まずはollama run qwen3:8bで日本語チャットを試してみるのがおすすめです。

<-- Back to home
にほんブログ村 IT技術ブログ IT技術メモへ PVアクセスランキング にほんブログ村