The local-AI map redrawn in 7 days
Qwen 3.6 27B beats a 397B predecessor. Gemma 4 26B-A4B lands with 22 quants. Kimi K2.6 hits Opus parity at 1T params.
わずか7日間で、14本のモデルがリリースされました。ローカル推論を行うユーザーにとって、実際に何が変わったのかをまとめます。
リリースされたモデル(4月18〜24日)
| モデル | プロバイダー | パラメータ数 | ローカル対応 | 特徴 |
|---|---|---|---|---|
| Qwen 3.6 27B | Alibaba | 27B dense | ✓ | SWE-bench 77.2、マルチモーダル対応 |
| Gemma 4 26B-A4B | 26B/4B MoE | ✓ | 22種類のUnsloth量子化モデル | |
| micro-kiki v3 | L'Électron Rare | 35B/3B MoE + LoRA | ✓ | ドメイン専門家ルーティング |
| Kimi K2.6 | Moonshot AI | 1T/32B MoE | クラウド | Claude Opus 4.6 と同等のベンチマーク性能 |
| DeepSeek V4 Pro | DeepSeek | 1.6T/862B MoE | クラウド | 大規模FP4 QAT採用 |
| DeepSeek V4 Flash | DeepSeek | 292B/158B MoE | クラウド | Pro並みの性能を1/12のコストで |
| HunYuan Hy3 | Tencent | 295B/21B MoE | クラウド | 効率40%向上、オープンウェイト |
| Ling 2.6 1T | Ant Group | 1T/50B MoE | クラウド | AA Indexグローバル2位、262Kコンテキスト |
ローカル対応モデルの数は少ないですが、その2つは本当に優れたモデルです。
ローカル環境を変える2つのモデル
Qwen 3.6 27B — 397Bモデルの実力を27Bに凝縮
Qwen 3.6 27B はdense型27Bモデルでありながら、SWE-bench Verified においてQwen 3.5 397B(前世代のフラッグシップ)を上回るスコア77.2を記録しました。参考までに、397Bモデルはマルチ GPU 環境が必要です。一方、27BモデルはQ4_K_MでVRAM 17GBあれば単一の16GB GPU で動作し、24GB以上のM-seriesのMacでも快適に使えます。
また、ネイティブでマルチモーダル対応しており、画像・動画・テキストを単一モデルで処理できます。アダプターやパイプラインの切り替えは不要です。Claude CodeおよびQwen Codeのツールチェーンとも標準で互換性があります。
ollama pull qwen3.6:27b
→ 計算ツールで自分の GPU に収まるか確認してみてください。
Gemma 4 26B-A4B — このクラスで最も充実した量子化ラインナップ
Googleが静かにリリースした、26B総パラメータ / 4Bアクティブ パラメータのMoEモデルです。モデル本体よりも注目すべきは、Unslothが提供する量子化の充実度です。22段階のクオリティレベルにわたってベストクラスのGGUFを公開しており、Gemma 4ファミリーの中で最も幅広いカバレッジを誇ります。12GB GPU でQ2_Kを使ってGemma 4 MoEを動かしたいと思っていた方に、まさにこのモデルがぴったりです。
モデルページで量子化の全ラインナップを確認できます:Q8_0(VRAM 29GB)からQ2_K(VRAM 10.5GB)まで対応しています。
ollama pull gemma4:26b-a4b
クラウドモデルが依然として重要な理由
今週のクラウドリリース群は、いわば「VRAM が無制限にあったら何ができるか」を示すベンチマークです。これらは、将来コンシューマー向けハードウェアで実現される性能の上限を示しています。
Kimi K2.6(総パラメータ1T、アクティブ32B、256Kコンテキスト)はSWE-benchでClaude Opus 4.6に匹敵し、300の並列サブエージェントを標準でサポートします。コミュニティの評価では「Opus 4.6タスクの85%は今すぐ置き換え可能」とのこと。すでにOpenRouterとCloudflare Workers AIで利用できます。
DeepSeek V4 Proは、注目すべき2つのアーキテクチャ革新を導入しています。ひとつは標準の全注意機構をCSA+HCAレイヤーに置き換えたHybrid Attention、もうひとつは残差接続を完全に置き換えるManifold-Constrained Hyper-Connectionsです。過去のDeepSeekの進化が7Bや14Bモデルに波及したように、これらのアイデアが小型モデルに蒸留されれば、6〜12ヶ月後にはローカル環境の性能向上につながるはずです。
Ling 2.6 1T(Ant Group)はダークホースです。AA Intelligence Indexでグローバル2位(スコア34、平均13点)を獲得し、オープンウェイトのApache 2.0ライセンスで提供予定です。料金も100万トークンあたり$0.30/$2.50と攻撃的な設定です。ウェイトが公開され次第、ローカル量子化の筆頭候補として要注目です。
今買う価値のあるハードウェア
今週の2つのハードウェア追加が、2025年初頭から存在していたギャップを埋めます。
RTX 5070 Ti(16GB、896 GB/s)— RTX 4080 SUPERと同じVRAMクラスでありながら、$749対$999と低価格です。帯域幅の向上(896対736 GB/s)は、量子化モデルのトークン生成スループットを直接改善します。Qwen 3.6 27B のQ4_K_M(17GB)を動かすにはこのクラスが必要です。
RX 9070 XT(16GB、644 GB/s、RDNA 4、$599)— このGPU世代でllama.cpp ROCmサポートが実用レベルになった、AMD初のコンシューマー向けGPUです。Gemma 4 26B-A4B のQ4_K_MはVRAM 16.5GBで動作します。ギリギリではありますが、実用的です。
Apple M4 Ultra 64GBは、31B〜72B dense クラスのモデルをローカルで動かせるようにします。70B程度のQ4_K_Mモデルまで量子化の妥協なく収まります。統合帯域幅1092 GB/sにより、コンシューマー向けハードウェアでは圧倒的に最速のトークン生成速度を誇ります。
実際に動かしてみる
今週のローカル対応モデルに必要な最小VRAM:
| モデル | 16GB GPU での最適量子化 | VRAM | 24GB GPU(Q4_K_M)に収まるか |
|---|---|---|---|
| Qwen 3.6 27B | Q2_K | 11GB | ✓ (17GB) |
| Gemma 4 26B-A4B | Q2_K | 10.5GB | ✓ (16.5GB) |
| Qwen 3.6 35B-A3B | Q2_K | 13GB | 24GB以上が必要 (21GB) |
計算ツールで自分の GPU に最適な量子化レベルを確認できます。24GB以上であれば、Q4_K_Mが品質と効率のバランスが最も良い選択肢です。
RunLocal は Ollama、OpenCode、ローカル推論エコシステムを毎週お届けします。
runlocal.dev · @RunLocalcc