runlocal.cc
GPUを診断 →
Issue #42026年4月25日

The local-AI map redrawn in 7 days

Qwen 3.6 27B beats a 397B predecessor. Gemma 4 26B-A4B lands with 22 quants. Kimi K2.6 hits Opus parity at 1T params.

わずか7日間で、14本のモデルがリリースされました。ローカル推論を行うユーザーにとって、実際に何が変わったのかをまとめます。

リリースされたモデル(4月18〜24日)

モデル プロバイダー パラメータ数 ローカル対応 特徴
Qwen 3.6 27B Alibaba 27B dense SWE-bench 77.2、マルチモーダル対応
Gemma 4 26B-A4B Google 26B/4B MoE 22種類のUnsloth量子化モデル
micro-kiki v3 L'Électron Rare 35B/3B MoE + LoRA ドメイン専門家ルーティング
Kimi K2.6 Moonshot AI 1T/32B MoE クラウド Claude Opus 4.6 と同等のベンチマーク性能
DeepSeek V4 Pro DeepSeek 1.6T/862B MoE クラウド 大規模FP4 QAT採用
DeepSeek V4 Flash DeepSeek 292B/158B MoE クラウド Pro並みの性能を1/12のコストで
HunYuan Hy3 Tencent 295B/21B MoE クラウド 効率40%向上、オープンウェイト
Ling 2.6 1T Ant Group 1T/50B MoE クラウド AA Indexグローバル2位、262Kコンテキスト

ローカル対応モデルの数は少ないですが、その2つは本当に優れたモデルです。

ローカル環境を変える2つのモデル

Qwen 3.6 27B — 397Bモデルの実力を27Bに凝縮

Qwen 3.6 27B はdense型27Bモデルでありながら、SWE-bench Verified においてQwen 3.5 397B(前世代のフラッグシップ)を上回るスコア77.2を記録しました。参考までに、397Bモデルはマルチ GPU 環境が必要です。一方、27BモデルはQ4_K_MでVRAM 17GBあれば単一の16GB GPU で動作し、24GB以上のM-seriesのMacでも快適に使えます。

また、ネイティブでマルチモーダル対応しており、画像・動画・テキストを単一モデルで処理できます。アダプターやパイプラインの切り替えは不要です。Claude CodeおよびQwen Codeのツールチェーンとも標準で互換性があります。

ollama pull qwen3.6:27b

計算ツールで自分の GPU に収まるか確認してみてください。

Gemma 4 26B-A4B — このクラスで最も充実した量子化ラインナップ

Googleが静かにリリースした、26B総パラメータ / 4Bアクティブ パラメータのMoEモデルです。モデル本体よりも注目すべきは、Unslothが提供する量子化の充実度です。22段階のクオリティレベルにわたってベストクラスのGGUFを公開しており、Gemma 4ファミリーの中で最も幅広いカバレッジを誇ります。12GB GPU でQ2_Kを使ってGemma 4 MoEを動かしたいと思っていた方に、まさにこのモデルがぴったりです。

モデルページで量子化の全ラインナップを確認できます:Q8_0(VRAM 29GB)からQ2_K(VRAM 10.5GB)まで対応しています。

ollama pull gemma4:26b-a4b

クラウドモデルが依然として重要な理由

今週のクラウドリリース群は、いわば「VRAM が無制限にあったら何ができるか」を示すベンチマークです。これらは、将来コンシューマー向けハードウェアで実現される性能の上限を示しています。

Kimi K2.6(総パラメータ1T、アクティブ32B、256Kコンテキスト)はSWE-benchでClaude Opus 4.6に匹敵し、300の並列サブエージェントを標準でサポートします。コミュニティの評価では「Opus 4.6タスクの85%は今すぐ置き換え可能」とのこと。すでにOpenRouterとCloudflare Workers AIで利用できます。

DeepSeek V4 Proは、注目すべき2つのアーキテクチャ革新を導入しています。ひとつは標準の全注意機構をCSA+HCAレイヤーに置き換えたHybrid Attention、もうひとつは残差接続を完全に置き換えるManifold-Constrained Hyper-Connectionsです。過去のDeepSeekの進化が7Bや14Bモデルに波及したように、これらのアイデアが小型モデルに蒸留されれば、6〜12ヶ月後にはローカル環境の性能向上につながるはずです。

Ling 2.6 1T(Ant Group)はダークホースです。AA Intelligence Indexでグローバル2位(スコア34、平均13点)を獲得し、オープンウェイトのApache 2.0ライセンスで提供予定です。料金も100万トークンあたり$0.30/$2.50と攻撃的な設定です。ウェイトが公開され次第、ローカル量子化の筆頭候補として要注目です。

今買う価値のあるハードウェア

今週の2つのハードウェア追加が、2025年初頭から存在していたギャップを埋めます。

RTX 5070 Ti(16GB、896 GB/s)— RTX 4080 SUPERと同じVRAMクラスでありながら、$749対$999と低価格です。帯域幅の向上(896対736 GB/s)は、量子化モデルのトークン生成スループットを直接改善します。Qwen 3.6 27B のQ4_K_M(17GB)を動かすにはこのクラスが必要です。

RX 9070 XT(16GB、644 GB/s、RDNA 4、$599)— このGPU世代でllama.cpp ROCmサポートが実用レベルになった、AMD初のコンシューマー向けGPUです。Gemma 4 26B-A4B のQ4_K_MはVRAM 16.5GBで動作します。ギリギリではありますが、実用的です。

Apple M4 Ultra 64GBは、31B〜72B dense クラスのモデルをローカルで動かせるようにします。70B程度のQ4_K_Mモデルまで量子化の妥協なく収まります。統合帯域幅1092 GB/sにより、コンシューマー向けハードウェアでは圧倒的に最速のトークン生成速度を誇ります。

実際に動かしてみる

今週のローカル対応モデルに必要な最小VRAM:

モデル 16GB GPU での最適量子化 VRAM 24GB GPU(Q4_K_M)に収まるか
Qwen 3.6 27B Q2_K 11GB ✓ (17GB)
Gemma 4 26B-A4B Q2_K 10.5GB ✓ (16.5GB)
Qwen 3.6 35B-A3B Q2_K 13GB 24GB以上が必要 (21GB)

計算ツールで自分の GPU に最適な量子化レベルを確認できます。24GB以上であれば、Q4_K_Mが品質と効率のバランスが最も良い選択肢です。


RunLocal は Ollama、OpenCode、ローカル推論エコシステムを毎週お届けします。
runlocal.dev · @RunLocalcc