runlocal.cc
GPUを診断 →
Issue #62026年5月19日

The inference-engine wave: MTP, DFlash, PAGED MoE

Single-card 600 tok/s. 397B on a 64GB Mac. 85 tok/s at 524k context. Three weeks of runtime breakthroughs reset what 'local' means.

今号は少し毛色が違います。注目すべき新しいウェイトはほとんどありません。重要なのは、今月リリースされたウェイトが、すでに手元にあるハードウェア上でどのように動くかです。5月に3つのランタイムレベルの変化が同時に起きており、コスト曲線の見え方がガラリと変わりました。

リリース情報(5月9日〜5月19日)

項目 種別 ハイライト
DeepSeek V4-Flash の MTP 自己投機的デコード 推論最適化 2× RTX PRO 6000 Max-Q で 85 tok/s @ 524k ctx
Qwen 3.6 27B への TurboQuant + MTP 適用 推論最適化 単一 RTX 4090 で 80+ tok/s @ 262K
Gemma 4 26B への DFlash 投機的デコード 推論最適化 単一 RTX 5090 で 600 tok/s(vLLM)
ExLlamaV3 + DFlash 統合 エンジン更新 DFlash 導入前比でエージェント系ベンチマーク 2.51× 向上
PAGED MoE エンジン エンジンリリース M1 Ultra 64GB 上で 397B パラメータモデルを常駐 〜14GB で動作
llama.cpp MTP が main にマージ エンジン更新 Strix Halo で 2.44× 、RTX 3090 で 2.17× のスループット向上
MiniCPM 4.6 モデルリリース 1.2B の密なエッジモデル
GPT-Realtime-2 / Translate / Whisper クラウドモデル OpenAI のリアルタイム音声三点セット
HoloMotion-1(Horizon) ロボティクスモデル 400M のオープンな全身ヒューマノイド制御モデル

モデルの欄が短いのは意図的です。今月の見どころは推論の欄にあります。

1. MTP 自己投機的デコードが大型ウェイトに適用可能に

Multi-Token Prediction はもともと Qwen 3.6 27B のトレーニング時のテクニックでした。5月、それは汎用的なランタイムアクセラレータへと進化しました。MTP ヘッドを持つベースモデル(またはファインチューニングで後付けしたもの)を用意し、そのヘッドを自己投機器として使えば、別途ドラフトモデルを用意する必要がなくなります。

今回の計測値:

  • DeepSeek V4-Flash(W4A16 + FP8 + MTP 自己投機):2× RTX PRO 6000 Max-Q で 524k context 時に 85 tok/s
  • Qwen 3.6 27B(TurboQuant + MTP):単一 RTX 4090 で 262K context 時に 80+ tok/s
  • Qwen 3.6 27B(MTP グラフト + llama.cpp PR):単一 RTX 3090 で 50 tok/s
  • llama.cpp の MTP サポートが main にマージ(5月19日):Strix Halo で 2.44×、RTX 3090 で 2.17× のスループット向上

エージェント型コーディングへの影響は直接的です。262K のコンテキストを保持しながら、27B クラスのモデルがかつてサーバーを必要としていたスループットを持続できるようになりました。「ローカルでのエージェント開発ループ」の実現可能性のしきい値が、大きく前進したと言えます。

2. コンシューマー向け Blackwell 上の DFlash

vLLM チームは DFlash 投機的デコードを ExLlamaV3(turboderp のスタック)にマージしました。RTX 5090 上で Gemma 4 26B が シングルカードで 600 tok/s を持続しています。エージェント系ベンチマークは DFlash 導入前のベースラインと比べて 2.51× 改善しました。

これは「プロンプトが速くなった」というレベルの話ではありません。「ローカルのシングルカード推論が、昨年の API ティアと同等になった」ということです。

さらに NVIDIA の Gemma-4-26B-A4B-NVFP4 クォント(5090 の 32GB VRAM の 80% 以下で 50K ctx を処理可能、5月前半にリリース済み)と組み合わせると、RTX 5090 はオリジナル 3090 以来、ローカル LLM 向けのコンシューマーハードウェアとして最も費用対効果の高い1枚になっています。

3. 64GB Mac 上の PAGED MoE

今月最も驚くべき出来事です。オープンソースの PAGED MoE エンジンが、M1 Ultra 64GB Mac Studio 上で 397B パラメータのモデルを 1.59 tok/s で動作させました。常駐メモリは〜14GB で、エキスパートをページングしながら動的に入れ替えています。

1.59 tok/s は日常使いの速度ではありません。しかし、「コンシューマー Mac の上限は 70B」という前提はもはや揺らぎました。レイテンシ許容度が高いバッチ推論、メモリ拡張型のエージェントアーキテクチャ、非同期アシスタントといったユースケースでは、搭載 RAM をはるかに超える大規模なスパース MoE モデルが視野に入ってきました。

参考値として:あるユーザーが Intel Optane Persistent Memory 上で 1T パラメータのモデルを 4 tok/s で動作させました。実用価値よりも参照価値が高いですが、アーキテクチャ的な可能性の地図が着々と描かれています。

小粒でも光る話題

  • MiniCPM 4.6 — 1.2B の密なエッジモデル。スマートフォンやラップトップの CPU をターゲットにしています。マルチモデルパイプラインにおける小型の分類器やルーターとして有用です。
  • Qwen 3.6 35B-A3B — コミュニティの評価が固まりました:コードタスクで Gemma 4 26B-A4B より速く、性能も高いとのことです。蒸留バリアント(14B / 9B)はまだ未公開ですが、リリースされれば ロールプレイ・ファインチューニングのベースとして第一選択になるでしょう。
  • Gemma 4 WebGPU + Transformers.js — ネイティブランタイム不要で、ブラウザタブ内で完全オフラインの Gemma 4 が動作します。コンパニオン・組み込みシナリオの新たなデプロイ形態が登場しました。
  • AMD Strix Halo ROCm チュートリアル — 今年初めて、エンドツーエンドで整ったクリーンな ROCm ファインチューニング手順が公開されました。AMD をコストパフォーマンスの選択肢として見る目が、「理論上は可能」から「実証済み」へと変わりました。

クラウドと周辺動向

  • OpenAI がリアルタイム音声の三点セットをリリースしました:GPT-Realtime-2(リアルタイム会話での GPT-5 クラスの推論)、GPT-Realtime-TranslateGPT-Realtime-Whisper。音声カテゴリは OpenAI による急速な統合が進んでいます。ローカルの TTS/ASR プロジェクトは、ポジショニングの再検討が必要です。
  • HorizonHoloMotion-1 をオープンソース化しました。全身ヒューマノイド制御のための 400M の「小型ブレイン」モデルです。チャット向け LLM ではありませんが、一つのシグナルです:ロボティクスのオープンソース化が加速しており、身体制御に必要なパラメータ数がコンシューマーハードウェアを現実的なターゲットとみなせるほど小さくなっています。

今週すべきこと

  • RTX 5090 オーナー:DFlash 付きの ExLlamaV3 をインストールし、普段使いのモデルを再ベンチマークしてください。Gemma 4 26B で 300 tok/s を超えない場合は、設定に問題があります。
  • RTX 4090 / 3090 オーナー:MTP サポートを含む最新の llama.cpp main を取得し、Qwen 3.6 27B を再実行してください。スループットが〜2× 向上するはずです。
  • Mac 64GB オーナー:以前は手が届かないと思っていたスパース MoE モデルで PAGED MoE エンジンを試してみてください。1.5 tok/s が許容できる非同期エージェントやメモリ拡張型ループに組み込んでみましょう。
  • AMD ROCm ユーザー:Strix Halo のファインチューニングチュートリアルを一度エンドツーエンドで走り通してください。今日ファインチューニングしなくても、その道筋を把握しておくことに意味があります。

今月の見出しは推論エンジニアに有利な内容です。それはウェイトリリースのトレッドミルよりも、ローカル AI エコシステムにとって健全な姿です。そして、生の知能性能の差が広がる中でも、スループット・パー・ダラーで GPT-5.5 Pro との差を縮めていく波がここにあります。

runlocal