Gemma 4 changes local LLM — and the first killer use case is Claude Code
88% accuracy at 175 tok/s, 17GB VRAM, and how to cut your Claude Code bill with one env var
Gemma 4 26B MoEは、財務分類ベンチマークで17GBのVRAMを使い、175 tok/sのスピードで88%の精度を達成しました — Qwen 3.5 72Bを17ポイント上回る結果です。 18〜20GBのVRAMがある環境(RTX 4090、RTX 5080、または24GB Apple Siliconの構成)であれば、これが新しいデフォルト選択肢となります。
ベンチマーク
500件の実際の企業開示情報を使い、5カテゴリの株価方向予測を行ったベンチマークが今週Zennで公開されました:
| Model | Accuracy | Speed | VRAM |
|---|---|---|---|
| Gemma 4 26B MoE | 88% | 175.7 tok/s | 17 GB |
| Gemma 4 31B Dense | 88% | 61.5 tok/s | 19 GB |
| Qwen 3.5 72B | 71% | 146.5 tok/s | 24 GB |
DenseとMoEのバリアントは、アーキテクチャが異なるにもかかわらず、50件のテストケースすべてで同一の出力を生成しました。MoEはVRAMを2GB少なく使いながら、2.9倍高速です。
Qwen 3.5との17ポイントの差は、一つの失敗パターンから生じています。定型的な開示情報に対して、Qwenは19件の誤シグナルを生成したのに対し、Gemma 4はわずか4件でした。Gemma 4は重要な情報とノイズを区別できます。Qwen 3.5は少なくとも安定的にはできていません。
キラーユースケース
Claude CodeをOllamaに向ける。環境変数一つだけ。
LM Studio(OpenAIフォーマットのみ対応)とは異なり、Ollamaは/v1/messagesでAnthropicのMessages APIをネイティブにサポートしています — プロキシ不要、LiteLLM不要、変換レイヤー不要です。
# Pull the models
ollama pull gemma4:e4b # ~5GB VRAM — commit msgs, summaries
ollama pull gemma4:26b # ~17GB VRAM — code review, PR bodies
# Point Claude Code at local Ollama
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_AUTH_TOKEN=ollama \
claude
# Shortcut — same thing
ollama launch claude --model gemma4:26b
タスクの分担
- Claudeに任せること: アーキテクチャの意思決定、デバッグ、新規問題解決。
- ローカルのGemma 4に任せること: コミットメッセージ生成、PRの本文、コードレビュー、セッションの要約、翻訳。
日本人開発者がこれを7つのシェルコマンド(ai-commit-msg、ai-summarize、ai-review、ai-prなど)として実装し、Claude Codeのルールファイルに組み込んでいます。PreToolUseフックがgitコミットをインターセプトして自動メッセージを生成し、StopフックがセッションクローズのGemmaベースの安全チェックを実行します。
実装から得られた2つの教訓
- モデルファミリーを混在させない。 Qwen3とGemma4を切り替えると、モデルの完全な再ロードが発生します。Gemma4だけに統一して — 軽いタスクにはE4B、コードレビューには26B — モデルをVRAMにウォームな状態で保ちましょう。
- 不要なClaude Codeプラグインを削除する。 あるエンジニアがプラグインを16個から8個に減らしたところ、セッションごとに「数千トークン」分の未使用スキル説明を削減できました。
アップデートすべき内容
- Ollama v0.20.6-rc1 がテスト中。安定版v0.20.5はFlash Attentionの修正が含まれており、Ampere以前のGPUでGemma 4の出力が静かに破損していた問題が解消されています。
- OpenClaw 2026.4.11 — 安定版+当日ベータ版。週5〜7回リリース、スター数343K以上。
- OpenCode v0.0.55 — 約3日に1回リリース。Go + Bubble Tea TUI実装で、LSPフィードバックループアーキテクチャとして読む価値があります。
Based on RunLocal Issue #2 · Full newsletter version on Substack →