llama.cpp + MTP is here: Qwen3.6 27B hits 2.17× on an RTX 3090 — should you upgrade tonight?
Multi-Token Prediction landed in mainline llama.cpp this week. The real numbers across RTX 5090 / 3090 / Strix Halo / 8GB cards, and a one-table answer to whether MTP is worth your weekend.
今週何が起きたか
5月16日、PR #22673 が llama.cpp 本体にマージされ、Multi-Token Prediction (MTP) speculative decoding がコミュニティ fork から標準ビルドへ昇格しました。r/LocalLLaMA のフロントページでは24時間以内に 600+ upvote の投稿が立て続けに3本上がり、話題は一気に主流化しています。
4日後の5月20日には LM Studio が MTP に対応。Google AI Edge Gallery (v1.0.13/14) は Pixel TPU 上の Gemma 4 MTP を追加。Lemonade は macOS サポートが正式版に昇格。ローカル推論スタック全体が、わずか1週間で同じプリミティブに収束しました。
タイムライン:
5/06 Google が Gemma 4 MTP drafters を公開
5/13 コミュニティ fork: Qwen 向け MTP + TurboQuant が llama.cpp に
5/16 PR #22673 が本体にマージ
5/17 独立ベンチマーク登場(RTX 5090、Strix Halo)
5/19 追従 PR #23269: MTP の prompt processing 高速化
5/20 LM Studio が MTP UI を実装
MTP とは(60 秒で説明)
MTP は speculative decoding の一種です。別途小さな「ドラフトモデル」を並列で動かすのではなく、メインモデル自体に余分な予測ヘッドを組み込み、1回の forward pass で次の N トークンを提案します。モデルはそれを検証し、外れたものは巻き戻します。
メリット: VRAM に2つ目のモデルを置く必要がない、ドラフトとターゲットのバージョン不一致が起きない、カードに余裕があれば「タダで」高速化できる。
デメリット: 追加ヘッドが VRAM と KV キャッシュを消費する。VRAM 10GB 未満ではオーバーヘッドが利得を食いつぶす。
実測値
直近1週間の r/LocalLLaMA ベンチマーク投稿の集約:
| ハードウェア | モデル | 速度向上 (TG) | 備考 |
|---|---|---|---|
| RTX 5090 (32GB) | Qwen3.6 27B | 約 2.0× | Linux, llama.cpp 4f13cb7 |
| RTX 3090 (24GB) | Qwen3.6 27B | 2.17× | Headless、単一カード |
| AMD Strix Halo | Qwen3.6 27B | 2.44× | 最高記録 |
| AMD Strix Halo | Qwen3.6 35B-A3B | まちまち | MoE は伸び幅が小さい |
| 2× RTX 3090 | Qwen3.6 27B | MTP オフ比 +40% | --split-mode tensor のクセあり |
| MI50 (32GB) | Qwen3.6 27B | 52.8 t/s | MTP 未対応 |
| GTX 1080 (8GB) | Qwen3.6 35B-A3B | 24+ t/s | MoE オフロード、MTP なし |
| ラップトップ 6GB VRAM | Qwen3.6 35B-A3B | 割に合わない | オーバーヘッドが利得を食う |
一行結論: VRAM 24GB 以上 × dense な Qwen3.6 27B なら、MTP は実質タダの2倍速。今夜 llama.cpp をリビルドする価値あり。10GB 未満ならスキップ推奨。
ツールスタックの現状
| ツール | MTP 対応 | 備考 |
|---|---|---|
| llama.cpp | 本体マージ済 | commit 4f13cb7 以降に更新を。PR #23198 + #23269 で PP 改善 |
| LM Studio | 対応済 | UI トグル、5/20 リリース |
| Lemonade (AMD/Mac) | 対応済 | macOS 正式版、ROCm 7.13 |
| Google AI Edge | 対応済 | Pixel TPU 上の Gemma 4 MTP |
| Ollama | 未対応 | 公式アナウンスなし |
| MLX (Apple) | 未対応 | MTP パスはまだなし |
| vLLM | 部分対応 | Qwen3 MTP は動作、FP8 では効果報告なし |
注意喚起: 5/16〜5/19 の間に MTP を試して prompt processing が遅いと感じた方、その問題は修正済みです。現在の main からリビルドしてください。
GGUF + MTP vs MLX: Mac 民の問い
今週の Apple Silicon ユーザー最大の話題: GGUF + MTP は MLX を超えたのか?
r/LocalLLaMA と Hacker News のコンセンサス:
- 27B 以上の dense モデル: GGUF + MTP は M シリーズで MLX と同等または上回る。2倍の生成速度向上により、MLX の matmul スループット優位が消える。
- 小さいモデル(14B 以下 dense): MLX が依然リード。MTP のオーバーヘッドが見合わない。
- MoE モデル(Qwen3.6 35B-A3B): まちまち。MoE のルーティングが MTP の検証可能トークン数を制限する。
M3/M4 Max + 36GB 以上のユニファイドメモリ環境なら、今週は普段使いモデルを A/B テストする好機です。
今週末のアクションプラン
- VRAM の余力を確認 — runlocal.dev カリキュレーターで、Qwen3.6 27B の Q4/Q5 + MTP オーバーヘッド(Q4 で約 +1.5GB)が収まるか確認。
- 24GB クラス(3090/4090/5090/7900 XTX): 現行 main から llama.cpp をリビルド、Qwen3.6 27B MTP GGUF を取得、
-ctk q8_0 -ctv q8_0で KV キャッシュ VRAM を取り戻す。 - Mac M3/M4 + 36GB 以上: LM Studio で同じ GGUF + MTP を読み込み、現状の MLX セットアップとベンチ比較。上記のコンセンサスと異なる結果が出たら共有してください。
- 8GB 以下: 手を出さない。Qwen3.6 8B か Gemma 4 E4B に留まる。あなたの速度向上戦略は量子化であって投機ではない。
- AMD ユーザー: 現状 Strix Halo がコスパ最強の MTP ターゲット。Lemonade v10.5.1 + ROCm 7.13 が公式スタック。
今週を超えてなぜ重要か
MTP は以下を同時に満たす最初の speculative decoding 変種です:
- モデル重みに組み込み済み(別途ドラフトモデルの取得・バージョン整合が不要)
- 1ヶ月以内に3つ以上の推論エンジンで標準化
- コンシューマー級 VRAM で実用に達した(24GB で実モデルが本当に2倍速)
エージェンティックコーディングの実用ラインが動きました。3090 で Qwen3.6 27B が2倍速で動くことは、「ローカル LLM は珍しい玩具」と「ローカル LLM は Cursor の代替バックエンド」を分ける境界線です。Qwen3.7、次世代 DeepSeek、Llama 5 は MTP ヘッドをオプションではなく標準で搭載してくる、と見ています。
向こう60日の注目点: Ollama と MLX はいつ追いつくか。そしてコミュニティモデル(first-party 以外)が MTP 重みを出荷できる fine-tuning レシピが公開されるか。
次号: MTP 以後の推論エンジン勢力図 — Ollama、MLX、vLLM の進路を読み解く。