Issue #22026年4月12日

Gemma 4 changes local LLM — and the first killer use case is Claude Code

88% accuracy at 175 tok/s, 17GB VRAM, and how to cut your Claude Code bill with one env var

Gemma 4 26B MoEは、財務分類ベンチマークで17GBのVRAMを使い、175 tok/sのスピードで88%の精度を達成しました — Qwen 3.5 72Bを17ポイント上回る結果です。 18〜20GBのVRAMがある環境（RTX 4090、RTX 5080、または24GB Apple Siliconの構成）であれば、これが新しいデフォルト選択肢となります。

ベンチマーク

500件の実際の企業開示情報を使い、5カテゴリの株価方向予測を行ったベンチマークが今週Zennで公開されました：

Model	Accuracy	Speed	VRAM
Gemma 4 26B MoE	88%	175.7 tok/s	17 GB
Gemma 4 31B Dense	88%	61.5 tok/s	19 GB
Qwen 3.5 72B	71%	146.5 tok/s	24 GB

DenseとMoEのバリアントは、アーキテクチャが異なるにもかかわらず、50件のテストケースすべてで同一の出力を生成しました。MoEはVRAMを2GB少なく使いながら、2.9倍高速です。

Qwen 3.5との17ポイントの差は、一つの失敗パターンから生じています。定型的な開示情報に対して、Qwenは19件の誤シグナルを生成したのに対し、Gemma 4はわずか4件でした。Gemma 4は重要な情報とノイズを区別できます。Qwen 3.5は少なくとも安定的にはできていません。

キラーユースケース

Claude CodeをOllamaに向ける。環境変数一つだけ。

LM Studio（OpenAIフォーマットのみ対応）とは異なり、Ollamaは/v1/messagesでAnthropicのMessages APIをネイティブにサポートしています — プロキシ不要、LiteLLM不要、変換レイヤー不要です。

# Pull the models
ollama pull gemma4:e4b    # ~5GB VRAM — commit msgs, summaries
ollama pull gemma4:26b    # ~17GB VRAM — code review, PR bodies

# Point Claude Code at local Ollama
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_AUTH_TOKEN=ollama \
claude

# Shortcut — same thing
ollama launch claude --model gemma4:26b

タスクの分担

Claudeに任せること： アーキテクチャの意思決定、デバッグ、新規問題解決。
ローカルのGemma 4に任せること： コミットメッセージ生成、PRの本文、コードレビュー、セッションの要約、翻訳。

日本人開発者がこれを7つのシェルコマンド（ai-commit-msg、ai-summarize、ai-review、ai-prなど）として実装し、Claude Codeのルールファイルに組み込んでいます。PreToolUseフックがgitコミットをインターセプトして自動メッセージを生成し、StopフックがセッションクローズのGemmaベースの安全チェックを実行します。

実装から得られた2つの教訓

モデルファミリーを混在させない。 Qwen3とGemma4を切り替えると、モデルの完全な再ロードが発生します。Gemma4だけに統一して — 軽いタスクにはE4B、コードレビューには26B — モデルをVRAMにウォームな状態で保ちましょう。
不要なClaude Codeプラグインを削除する。 あるエンジニアがプラグインを16個から8個に減らしたところ、セッションごとに「数千トークン」分の未使用スキル説明を削減できました。

アップデートすべき内容

Ollama v0.20.6-rc1 がテスト中。安定版v0.20.5はFlash Attentionの修正が含まれており、Ampere以前のGPUでGemma 4の出力が静かに破損していた問題が解消されています。
OpenClaw 2026.4.11 — 安定版＋当日ベータ版。週5〜7回リリース、スター数343K以上。
OpenCode v0.0.55 — 約3日に1回リリース。Go + Bubble Tea TUI実装で、LSPフィードバックループアーキテクチャとして読む価値があります。

Based on RunLocal Issue #2 · Full newsletter version on Substack →

← 全ての記事 Substack でニュースレターを読む →