runlocal.cc
GPUを診断 →
Issue #22026年4月12日

Gemma 4 changes local LLM — and the first killer use case is Claude Code

88% accuracy at 175 tok/s, 17GB VRAM, and how to cut your Claude Code bill with one env var

Gemma 4 26B MoEは、財務分類ベンチマークで17GBのVRAMを使い、175 tok/sのスピードで88%の精度を達成しました — Qwen 3.5 72Bを17ポイント上回る結果です。 18〜20GBのVRAMがある環境(RTX 4090RTX 5080、または24GB Apple Siliconの構成)であれば、これが新しいデフォルト選択肢となります。

ベンチマーク

500件の実際の企業開示情報を使い、5カテゴリの株価方向予測を行ったベンチマークが今週Zennで公開されました:

Model Accuracy Speed VRAM
Gemma 4 26B MoE 88% 175.7 tok/s 17 GB
Gemma 4 31B Dense 88% 61.5 tok/s 19 GB
Qwen 3.5 72B 71% 146.5 tok/s 24 GB

DenseとMoEのバリアントは、アーキテクチャが異なるにもかかわらず、50件のテストケースすべてで同一の出力を生成しました。MoEはVRAMを2GB少なく使いながら、2.9倍高速です。

Qwen 3.5との17ポイントの差は、一つの失敗パターンから生じています。定型的な開示情報に対して、Qwenは19件の誤シグナルを生成したのに対し、Gemma 4はわずか4件でした。Gemma 4は重要な情報とノイズを区別できます。Qwen 3.5は少なくとも安定的にはできていません。

キラーユースケース

Claude CodeをOllamaに向ける。環境変数一つだけ。

LM Studio(OpenAIフォーマットのみ対応)とは異なり、Ollamaは/v1/messagesでAnthropicのMessages APIをネイティブにサポートしています — プロキシ不要、LiteLLM不要、変換レイヤー不要です。

# Pull the models
ollama pull gemma4:e4b    # ~5GB VRAM — commit msgs, summaries
ollama pull gemma4:26b    # ~17GB VRAM — code review, PR bodies

# Point Claude Code at local Ollama
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_AUTH_TOKEN=ollama \
claude

# Shortcut — same thing
ollama launch claude --model gemma4:26b

タスクの分担

  • Claudeに任せること: アーキテクチャの意思決定、デバッグ、新規問題解決。
  • ローカルのGemma 4に任せること: コミットメッセージ生成、PRの本文、コードレビュー、セッションの要約、翻訳。

日本人開発者がこれを7つのシェルコマンド(ai-commit-msgai-summarizeai-reviewai-prなど)として実装し、Claude Codeのルールファイルに組み込んでいます。PreToolUseフックがgitコミットをインターセプトして自動メッセージを生成し、StopフックがセッションクローズのGemmaベースの安全チェックを実行します。

実装から得られた2つの教訓

  1. モデルファミリーを混在させない。 Qwen3とGemma4を切り替えると、モデルの完全な再ロードが発生します。Gemma4だけに統一して — 軽いタスクにはE4B、コードレビューには26B — モデルをVRAMにウォームな状態で保ちましょう。
  2. 不要なClaude Codeプラグインを削除する。 あるエンジニアがプラグインを16個から8個に減らしたところ、セッションごとに「数千トークン」分の未使用スキル説明を削減できました。

アップデートすべき内容

  • Ollama v0.20.6-rc1 がテスト中。安定版v0.20.5はFlash Attentionの修正が含まれており、Ampere以前のGPUでGemma 4の出力が静かに破損していた問題が解消されています。
  • OpenClaw 2026.4.11 — 安定版+当日ベータ版。週5〜7回リリース、スター数343K以上。
  • OpenCode v0.0.55 — 約3日に1回リリース。Go + Bubble Tea TUI実装で、LSPフィードバックループアーキテクチャとして読む価値があります。

Based on RunLocal Issue #2 · Full newsletter version on Substack →