Issue #42026年4月25日

The local-AI map redrawn in 7 days

Qwen 3.6 27B beats a 397B predecessor. Gemma 4 26B-A4B lands with 22 quants. Kimi K2.6 hits Opus parity at 1T params.

わずか7日間で、14本のモデルがリリースされました。ローカル推論を行うユーザーにとって、実際に何が変わったのかをまとめます。

リリースされたモデル（4月18〜24日）

モデル	プロバイダー	パラメータ数	ローカル対応	特徴
Qwen 3.6 27B	Alibaba	27B dense	✓	SWE-bench 77.2、マルチモーダル対応
Gemma 4 26B-A4B	Google	26B/4B MoE	✓	22種類のUnsloth量子化モデル
micro-kiki v3	L'Électron Rare	35B/3B MoE + LoRA	✓	ドメイン専門家ルーティング
Kimi K2.6	Moonshot AI	1T/32B MoE	クラウド	Claude Opus 4.6 と同等のベンチマーク性能
DeepSeek V4 Pro	DeepSeek	1.6T/862B MoE	クラウド	大規模FP4 QAT採用
DeepSeek V4 Flash	DeepSeek	292B/158B MoE	クラウド	Pro並みの性能を1/12のコストで
HunYuan Hy3	Tencent	295B/21B MoE	クラウド	効率40%向上、オープンウェイト
Ling 2.6 1T	Ant Group	1T/50B MoE	クラウド	AA Indexグローバル2位、262Kコンテキスト

ローカル対応モデルの数は少ないですが、その2つは本当に優れたモデルです。

ローカル環境を変える2つのモデル

Qwen 3.6 27B — 397Bモデルの実力を27Bに凝縮

Qwen 3.6 27B はdense型27Bモデルでありながら、SWE-bench Verified においてQwen 3.5 397B（前世代のフラッグシップ）を上回るスコア77.2を記録しました。参考までに、397Bモデルはマルチ GPU 環境が必要です。一方、27BモデルはQ4_K_MでVRAM 17GBあれば単一の16GB GPU で動作し、24GB以上のM-seriesのMacでも快適に使えます。

また、ネイティブでマルチモーダル対応しており、画像・動画・テキストを単一モデルで処理できます。アダプターやパイプラインの切り替えは不要です。Claude CodeおよびQwen Codeのツールチェーンとも標準で互換性があります。

ollama pull qwen3.6:27b

→ 計算ツールで自分の GPU に収まるか確認してみてください。

Gemma 4 26B-A4B — このクラスで最も充実した量子化ラインナップ

Googleが静かにリリースした、26B総パラメータ / 4BアクティブパラメータのMoEモデルです。モデル本体よりも注目すべきは、Unslothが提供する量子化の充実度です。22段階のクオリティレベルにわたってベストクラスのGGUFを公開しており、Gemma 4ファミリーの中で最も幅広いカバレッジを誇ります。12GB GPU でQ2_Kを使ってGemma 4 MoEを動かしたいと思っていた方に、まさにこのモデルがぴったりです。

モデルページで量子化の全ラインナップを確認できます：Q8_0（VRAM 29GB）からQ2_K（VRAM 10.5GB）まで対応しています。

ollama pull gemma4:26b-a4b

クラウドモデルが依然として重要な理由

今週のクラウドリリース群は、いわば「VRAM が無制限にあったら何ができるか」を示すベンチマークです。これらは、将来コンシューマー向けハードウェアで実現される性能の上限を示しています。

Kimi K2.6（総パラメータ1T、アクティブ32B、256Kコンテキスト）はSWE-benchでClaude Opus 4.6に匹敵し、300の並列サブエージェントを標準でサポートします。コミュニティの評価では「Opus 4.6タスクの85%は今すぐ置き換え可能」とのこと。すでにOpenRouterとCloudflare Workers AIで利用できます。

DeepSeek V4 Proは、注目すべき2つのアーキテクチャ革新を導入しています。ひとつは標準の全注意機構をCSA+HCAレイヤーに置き換えたHybrid Attention、もうひとつは残差接続を完全に置き換えるManifold-Constrained Hyper-Connectionsです。過去のDeepSeekの進化が7Bや14Bモデルに波及したように、これらのアイデアが小型モデルに蒸留されれば、6〜12ヶ月後にはローカル環境の性能向上につながるはずです。

Ling 2.6 1T（Ant Group）はダークホースです。AA Intelligence Indexでグローバル2位（スコア34、平均13点）を獲得し、オープンウェイトのApache 2.0ライセンスで提供予定です。料金も100万トークンあたり$0.30/$2.50と攻撃的な設定です。ウェイトが公開され次第、ローカル量子化の筆頭候補として要注目です。

今買う価値のあるハードウェア

今週の2つのハードウェア追加が、2025年初頭から存在していたギャップを埋めます。

RTX 5070 Ti（16GB、896 GB/s）— RTX 4080 SUPERと同じVRAMクラスでありながら、$749対$999と低価格です。帯域幅の向上（896対736 GB/s）は、量子化モデルのトークン生成スループットを直接改善します。Qwen 3.6 27B のQ4_K_M（17GB）を動かすにはこのクラスが必要です。

RX 9070 XT（16GB、644 GB/s、RDNA 4、$599）— このGPU世代でllama.cpp ROCmサポートが実用レベルになった、AMD初のコンシューマー向けGPUです。Gemma 4 26B-A4B のQ4_K_MはVRAM 16.5GBで動作します。ギリギリではありますが、実用的です。

Apple M4 Ultra 64GBは、31B〜72B dense クラスのモデルをローカルで動かせるようにします。70B程度のQ4_K_Mモデルまで量子化の妥協なく収まります。統合帯域幅1092 GB/sにより、コンシューマー向けハードウェアでは圧倒的に最速のトークン生成速度を誇ります。

実際に動かしてみる

今週のローカル対応モデルに必要な最小VRAM：

モデル	16GB GPU での最適量子化	VRAM	24GB GPU（Q4_K_M）に収まるか
Qwen 3.6 27B	Q2_K	11GB	✓ (17GB)
Gemma 4 26B-A4B	Q2_K	10.5GB	✓ (16.5GB)
Qwen 3.6 35B-A3B	Q2_K	13GB	24GB以上が必要 (21GB)

計算ツールで自分の GPU に最適な量子化レベルを確認できます。24GB以上であれば、Q4_K_Mが品質と効率のバランスが最も良い選択肢です。

RunLocal は Ollama、OpenCode、ローカル推論エコシステムを毎週お届けします。
runlocal.dev · @RunLocalcc

← 全ての記事