Issue #62026年5月19日

The inference-engine wave: MTP, DFlash, PAGED MoE

Single-card 600 tok/s. 397B on a 64GB Mac. 85 tok/s at 524k context. Three weeks of runtime breakthroughs reset what 'local' means.

今号は少し毛色が違います。注目すべき新しいウェイトはほとんどありません。重要なのは、今月リリースされたウェイトが、すでに手元にあるハードウェア上でどのように動くかです。5月に3つのランタイムレベルの変化が同時に起きており、コスト曲線の見え方がガラリと変わりました。

リリース情報（5月9日〜5月19日）

項目	種別	ハイライト
DeepSeek V4-Flash の MTP 自己投機的デコード	推論最適化	2× RTX PRO 6000 Max-Q で 85 tok/s @ 524k ctx
Qwen 3.6 27B への TurboQuant + MTP 適用	推論最適化	単一 RTX 4090 で 80+ tok/s @ 262K
Gemma 4 26B への DFlash 投機的デコード	推論最適化	単一 RTX 5090 で 600 tok/s（vLLM）
ExLlamaV3 + DFlash 統合	エンジン更新	DFlash 導入前比でエージェント系ベンチマーク 2.51× 向上
PAGED MoE エンジン	エンジンリリース	M1 Ultra 64GB 上で 397B パラメータモデルを常駐〜14GB で動作
llama.cpp MTP が main にマージ	エンジン更新	Strix Halo で 2.44× 、RTX 3090 で 2.17× のスループット向上
MiniCPM 4.6	モデルリリース	1.2B の密なエッジモデル
GPT-Realtime-2 / Translate / Whisper	クラウドモデル	OpenAI のリアルタイム音声三点セット
HoloMotion-1（Horizon）	ロボティクスモデル	400M のオープンな全身ヒューマノイド制御モデル

モデルの欄が短いのは意図的です。今月の見どころは推論の欄にあります。

1. MTP 自己投機的デコードが大型ウェイトに適用可能に

Multi-Token Prediction はもともと Qwen 3.6 27B のトレーニング時のテクニックでした。5月、それは汎用的なランタイムアクセラレータへと進化しました。MTP ヘッドを持つベースモデル（またはファインチューニングで後付けしたもの）を用意し、そのヘッドを自己投機器として使えば、別途ドラフトモデルを用意する必要がなくなります。

今回の計測値：

DeepSeek V4-Flash（W4A16 + FP8 + MTP 自己投機）：2× RTX PRO 6000 Max-Q で 524k context 時に 85 tok/s
Qwen 3.6 27B（TurboQuant + MTP）：単一 RTX 4090 で 262K context 時に 80+ tok/s
Qwen 3.6 27B（MTP グラフト + llama.cpp PR）：単一 RTX 3090 で 50 tok/s
llama.cpp の MTP サポートが main にマージ（5月19日）：Strix Halo で 2.44×、RTX 3090 で 2.17× のスループット向上

エージェント型コーディングへの影響は直接的です。262K のコンテキストを保持しながら、27B クラスのモデルがかつてサーバーを必要としていたスループットを持続できるようになりました。「ローカルでのエージェント開発ループ」の実現可能性のしきい値が、大きく前進したと言えます。

2. コンシューマー向け Blackwell 上の DFlash

vLLM チームは DFlash 投機的デコードを ExLlamaV3（turboderp のスタック）にマージしました。RTX 5090 上で Gemma 4 26B が シングルカードで 600 tok/s を持続しています。エージェント系ベンチマークは DFlash 導入前のベースラインと比べて 2.51× 改善しました。

これは「プロンプトが速くなった」というレベルの話ではありません。「ローカルのシングルカード推論が、昨年の API ティアと同等になった」ということです。

さらに NVIDIA の Gemma-4-26B-A4B-NVFP4 クォント（5090 の 32GB VRAM の 80% 以下で 50K ctx を処理可能、5月前半にリリース済み）と組み合わせると、RTX 5090 はオリジナル 3090 以来、ローカル LLM 向けのコンシューマーハードウェアとして最も費用対効果の高い1枚になっています。

3. 64GB Mac 上の PAGED MoE

今月最も驚くべき出来事です。オープンソースの PAGED MoE エンジンが、M1 Ultra 64GB Mac Studio 上で 397B パラメータのモデルを 1.59 tok/s で動作させました。常駐メモリは〜14GB で、エキスパートをページングしながら動的に入れ替えています。

1.59 tok/s は日常使いの速度ではありません。しかし、「コンシューマー Mac の上限は 70B」という前提はもはや揺らぎました。レイテンシ許容度が高いバッチ推論、メモリ拡張型のエージェントアーキテクチャ、非同期アシスタントといったユースケースでは、搭載 RAM をはるかに超える大規模なスパース MoE モデルが視野に入ってきました。

参考値として：あるユーザーが Intel Optane Persistent Memory 上で 1T パラメータのモデルを 4 tok/s で動作させました。実用価値よりも参照価値が高いですが、アーキテクチャ的な可能性の地図が着々と描かれています。

小粒でも光る話題

MiniCPM 4.6 — 1.2B の密なエッジモデル。スマートフォンやラップトップの CPU をターゲットにしています。マルチモデルパイプラインにおける小型の分類器やルーターとして有用です。
Qwen 3.6 35B-A3B — コミュニティの評価が固まりました：コードタスクで Gemma 4 26B-A4B より速く、性能も高いとのことです。蒸留バリアント（14B / 9B）はまだ未公開ですが、リリースされればロールプレイ・ファインチューニングのベースとして第一選択になるでしょう。
Gemma 4 WebGPU + Transformers.js — ネイティブランタイム不要で、ブラウザタブ内で完全オフラインの Gemma 4 が動作します。コンパニオン・組み込みシナリオの新たなデプロイ形態が登場しました。
AMD Strix Halo ROCm チュートリアル — 今年初めて、エンドツーエンドで整ったクリーンな ROCm ファインチューニング手順が公開されました。AMD をコストパフォーマンスの選択肢として見る目が、「理論上は可能」から「実証済み」へと変わりました。

クラウドと周辺動向

OpenAI がリアルタイム音声の三点セットをリリースしました：GPT-Realtime-2（リアルタイム会話での GPT-5 クラスの推論）、GPT-Realtime-Translate、GPT-Realtime-Whisper。音声カテゴリは OpenAI による急速な統合が進んでいます。ローカルの TTS/ASR プロジェクトは、ポジショニングの再検討が必要です。
Horizon が HoloMotion-1 をオープンソース化しました。全身ヒューマノイド制御のための 400M の「小型ブレイン」モデルです。チャット向け LLM ではありませんが、一つのシグナルです：ロボティクスのオープンソース化が加速しており、身体制御に必要なパラメータ数がコンシューマーハードウェアを現実的なターゲットとみなせるほど小さくなっています。

今週すべきこと

RTX 5090 オーナー：DFlash 付きの ExLlamaV3 をインストールし、普段使いのモデルを再ベンチマークしてください。Gemma 4 26B で 300 tok/s を超えない場合は、設定に問題があります。
RTX 4090 / 3090 オーナー：MTP サポートを含む最新の llama.cpp main を取得し、Qwen 3.6 27B を再実行してください。スループットが〜2× 向上するはずです。
Mac 64GB オーナー：以前は手が届かないと思っていたスパース MoE モデルで PAGED MoE エンジンを試してみてください。1.5 tok/s が許容できる非同期エージェントやメモリ拡張型ループに組み込んでみましょう。
AMD ROCm ユーザー：Strix Halo のファインチューニングチュートリアルを一度エンドツーエンドで走り通してください。今日ファインチューニングしなくても、その道筋を把握しておくことに意味があります。

今月の見出しは推論エンジニアに有利な内容です。それはウェイトリリースのトレッドミルよりも、ローカル AI エコシステムにとって健全な姿です。そして、生の知能性能の差が広がる中でも、スループット・パー・ダラーで GPT-5.5 Pro との差を縮めていく波がここにあります。

— runlocal

← 全ての記事