The inference-engine wave: MTP, DFlash, PAGED MoE
Single-card 600 tok/s. 397B on a 64GB Mac. 85 tok/s at 524k context. Three weeks of runtime breakthroughs reset what 'local' means.
今号は少し毛色が違います。注目すべき新しいウェイトはほとんどありません。重要なのは、今月リリースされたウェイトが、すでに手元にあるハードウェア上でどのように動くかです。5月に3つのランタイムレベルの変化が同時に起きており、コスト曲線の見え方がガラリと変わりました。
リリース情報(5月9日〜5月19日)
| 項目 | 種別 | ハイライト |
|---|---|---|
| DeepSeek V4-Flash の MTP 自己投機的デコード | 推論最適化 | 2× RTX PRO 6000 Max-Q で 85 tok/s @ 524k ctx |
| Qwen 3.6 27B への TurboQuant + MTP 適用 | 推論最適化 | 単一 RTX 4090 で 80+ tok/s @ 262K |
| Gemma 4 26B への DFlash 投機的デコード | 推論最適化 | 単一 RTX 5090 で 600 tok/s(vLLM) |
| ExLlamaV3 + DFlash 統合 | エンジン更新 | DFlash 導入前比でエージェント系ベンチマーク 2.51× 向上 |
| PAGED MoE エンジン | エンジンリリース | M1 Ultra 64GB 上で 397B パラメータモデルを常駐 〜14GB で動作 |
| llama.cpp MTP が main にマージ | エンジン更新 | Strix Halo で 2.44× 、RTX 3090 で 2.17× のスループット向上 |
| MiniCPM 4.6 | モデルリリース | 1.2B の密なエッジモデル |
| GPT-Realtime-2 / Translate / Whisper | クラウドモデル | OpenAI のリアルタイム音声三点セット |
| HoloMotion-1(Horizon) | ロボティクスモデル | 400M のオープンな全身ヒューマノイド制御モデル |
モデルの欄が短いのは意図的です。今月の見どころは推論の欄にあります。
1. MTP 自己投機的デコードが大型ウェイトに適用可能に
Multi-Token Prediction はもともと Qwen 3.6 27B のトレーニング時のテクニックでした。5月、それは汎用的なランタイムアクセラレータへと進化しました。MTP ヘッドを持つベースモデル(またはファインチューニングで後付けしたもの)を用意し、そのヘッドを自己投機器として使えば、別途ドラフトモデルを用意する必要がなくなります。
今回の計測値:
- DeepSeek V4-Flash(W4A16 + FP8 + MTP 自己投機):2× RTX PRO 6000 Max-Q で 524k context 時に 85 tok/s
- Qwen 3.6 27B(TurboQuant + MTP):単一 RTX 4090 で 262K context 時に 80+ tok/s
- Qwen 3.6 27B(MTP グラフト + llama.cpp PR):単一 RTX 3090 で 50 tok/s
- llama.cpp の MTP サポートが main にマージ(5月19日):Strix Halo で 2.44×、RTX 3090 で 2.17× のスループット向上
エージェント型コーディングへの影響は直接的です。262K のコンテキストを保持しながら、27B クラスのモデルがかつてサーバーを必要としていたスループットを持続できるようになりました。「ローカルでのエージェント開発ループ」の実現可能性のしきい値が、大きく前進したと言えます。
2. コンシューマー向け Blackwell 上の DFlash
vLLM チームは DFlash 投機的デコードを ExLlamaV3(turboderp のスタック)にマージしました。RTX 5090 上で Gemma 4 26B が シングルカードで 600 tok/s を持続しています。エージェント系ベンチマークは DFlash 導入前のベースラインと比べて 2.51× 改善しました。
これは「プロンプトが速くなった」というレベルの話ではありません。「ローカルのシングルカード推論が、昨年の API ティアと同等になった」ということです。
さらに NVIDIA の Gemma-4-26B-A4B-NVFP4 クォント(5090 の 32GB VRAM の 80% 以下で 50K ctx を処理可能、5月前半にリリース済み)と組み合わせると、RTX 5090 はオリジナル 3090 以来、ローカル LLM 向けのコンシューマーハードウェアとして最も費用対効果の高い1枚になっています。
3. 64GB Mac 上の PAGED MoE
今月最も驚くべき出来事です。オープンソースの PAGED MoE エンジンが、M1 Ultra 64GB Mac Studio 上で 397B パラメータのモデルを 1.59 tok/s で動作させました。常駐メモリは〜14GB で、エキスパートをページングしながら動的に入れ替えています。
1.59 tok/s は日常使いの速度ではありません。しかし、「コンシューマー Mac の上限は 70B」という前提はもはや揺らぎました。レイテンシ許容度が高いバッチ推論、メモリ拡張型のエージェントアーキテクチャ、非同期アシスタントといったユースケースでは、搭載 RAM をはるかに超える大規模なスパース MoE モデルが視野に入ってきました。
参考値として:あるユーザーが Intel Optane Persistent Memory 上で 1T パラメータのモデルを 4 tok/s で動作させました。実用価値よりも参照価値が高いですが、アーキテクチャ的な可能性の地図が着々と描かれています。
小粒でも光る話題
- MiniCPM 4.6 — 1.2B の密なエッジモデル。スマートフォンやラップトップの CPU をターゲットにしています。マルチモデルパイプラインにおける小型の分類器やルーターとして有用です。
- Qwen 3.6 35B-A3B — コミュニティの評価が固まりました:コードタスクで Gemma 4 26B-A4B より速く、性能も高いとのことです。蒸留バリアント(14B / 9B)はまだ未公開ですが、リリースされれば ロールプレイ・ファインチューニングのベースとして第一選択になるでしょう。
- Gemma 4 WebGPU + Transformers.js — ネイティブランタイム不要で、ブラウザタブ内で完全オフラインの Gemma 4 が動作します。コンパニオン・組み込みシナリオの新たなデプロイ形態が登場しました。
- AMD Strix Halo ROCm チュートリアル — 今年初めて、エンドツーエンドで整ったクリーンな ROCm ファインチューニング手順が公開されました。AMD をコストパフォーマンスの選択肢として見る目が、「理論上は可能」から「実証済み」へと変わりました。
クラウドと周辺動向
- OpenAI がリアルタイム音声の三点セットをリリースしました:GPT-Realtime-2(リアルタイム会話での GPT-5 クラスの推論)、GPT-Realtime-Translate、GPT-Realtime-Whisper。音声カテゴリは OpenAI による急速な統合が進んでいます。ローカルの TTS/ASR プロジェクトは、ポジショニングの再検討が必要です。
- Horizon が HoloMotion-1 をオープンソース化しました。全身ヒューマノイド制御のための 400M の「小型ブレイン」モデルです。チャット向け LLM ではありませんが、一つのシグナルです:ロボティクスのオープンソース化が加速しており、身体制御に必要なパラメータ数がコンシューマーハードウェアを現実的なターゲットとみなせるほど小さくなっています。
今週すべきこと
- RTX 5090 オーナー:DFlash 付きの ExLlamaV3 をインストールし、普段使いのモデルを再ベンチマークしてください。Gemma 4 26B で 300 tok/s を超えない場合は、設定に問題があります。
- RTX 4090 / 3090 オーナー:MTP サポートを含む最新の llama.cpp main を取得し、Qwen 3.6 27B を再実行してください。スループットが〜2× 向上するはずです。
- Mac 64GB オーナー:以前は手が届かないと思っていたスパース MoE モデルで PAGED MoE エンジンを試してみてください。1.5 tok/s が許容できる非同期エージェントやメモリ拡張型ループに組み込んでみましょう。
- AMD ROCm ユーザー:Strix Halo のファインチューニングチュートリアルを一度エンドツーエンドで走り通してください。今日ファインチューニングしなくても、その道筋を把握しておくことに意味があります。
今月の見出しは推論エンジニアに有利な内容です。それはウェイトリリースのトレッドミルよりも、ローカル AI エコシステムにとって健全な姿です。そして、生の知能性能の差が広がる中でも、スループット・パー・ダラーで GPT-5.5 Pro との差を縮めていく波がここにあります。
— runlocal