Issue #92026年5月21日

llama.cpp + MTP is here: Qwen3.6 27B hits 2.17× on an RTX 3090 — should you upgrade tonight?

Multi-Token Prediction landed in mainline llama.cpp this week. The real numbers across RTX 5090 / 3090 / Strix Halo / 8GB cards, and a one-table answer to whether MTP is worth your weekend.

今週何が起きたか

5月16日、PR #22673 が llama.cpp 本体にマージされ、Multi-Token Prediction (MTP) speculative decoding がコミュニティ fork から標準ビルドへ昇格しました。r/LocalLLaMA のフロントページでは24時間以内に 600+ upvote の投稿が立て続けに3本上がり、話題は一気に主流化しています。

4日後の5月20日には LM Studio が MTP に対応。Google AI Edge Gallery (v1.0.13/14) は Pixel TPU 上の Gemma 4 MTP を追加。Lemonade は macOS サポートが正式版に昇格。ローカル推論スタック全体が、わずか1週間で同じプリミティブに収束しました。

タイムライン:

5/06  Google が Gemma 4 MTP drafters を公開
5/13  コミュニティ fork: Qwen 向け MTP + TurboQuant が llama.cpp に
5/16  PR #22673 が本体にマージ
5/17  独立ベンチマーク登場（RTX 5090、Strix Halo）
5/19  追従 PR #23269: MTP の prompt processing 高速化
5/20  LM Studio が MTP UI を実装

MTP とは（60 秒で説明）

MTP は speculative decoding の一種です。別途小さな「ドラフトモデル」を並列で動かすのではなく、メインモデル自体に余分な予測ヘッドを組み込み、1回の forward pass で次の N トークンを提案します。モデルはそれを検証し、外れたものは巻き戻します。

メリット: VRAM に2つ目のモデルを置く必要がない、ドラフトとターゲットのバージョン不一致が起きない、カードに余裕があれば「タダで」高速化できる。

デメリット: 追加ヘッドが VRAM と KV キャッシュを消費する。VRAM 10GB 未満ではオーバーヘッドが利得を食いつぶす。

実測値

直近1週間の r/LocalLLaMA ベンチマーク投稿の集約:

ハードウェア	モデル	速度向上 (TG)	備考
RTX 5090 (32GB)	Qwen3.6 27B	約 2.0×	Linux, llama.cpp 4f13cb7
RTX 3090 (24GB)	Qwen3.6 27B	2.17×	Headless、単一カード
AMD Strix Halo	Qwen3.6 27B	2.44×	最高記録
AMD Strix Halo	Qwen3.6 35B-A3B	まちまち	MoE は伸び幅が小さい
2× RTX 3090	Qwen3.6 27B	MTP オフ比 +40%	`--split-mode tensor` のクセあり
MI50 (32GB)	Qwen3.6 27B	52.8 t/s	MTP 未対応
GTX 1080 (8GB)	Qwen3.6 35B-A3B	24+ t/s	MoE オフロード、MTP なし
ラップトップ 6GB VRAM	Qwen3.6 35B-A3B	割に合わない	オーバーヘッドが利得を食う

一行結論: VRAM 24GB 以上 × dense な Qwen3.6 27B なら、MTP は実質タダの2倍速。今夜 llama.cpp をリビルドする価値あり。10GB 未満ならスキップ推奨。

ツールスタックの現状

ツール	MTP 対応	備考
llama.cpp	本体マージ済	commit 4f13cb7 以降に更新を。PR #23198 + #23269 で PP 改善
LM Studio	対応済	UI トグル、5/20 リリース
Lemonade (AMD/Mac)	対応済	macOS 正式版、ROCm 7.13
Google AI Edge	対応済	Pixel TPU 上の Gemma 4 MTP
Ollama	未対応	公式アナウンスなし
MLX (Apple)	未対応	MTP パスはまだなし
vLLM	部分対応	Qwen3 MTP は動作、FP8 では効果報告なし

注意喚起: 5/16〜5/19 の間に MTP を試して prompt processing が遅いと感じた方、その問題は修正済みです。現在の main からリビルドしてください。

GGUF + MTP vs MLX: Mac 民の問い

今週の Apple Silicon ユーザー最大の話題: GGUF + MTP は MLX を超えたのか？

r/LocalLLaMA と Hacker News のコンセンサス:

27B 以上の dense モデル: GGUF + MTP は M シリーズで MLX と同等または上回る。2倍の生成速度向上により、MLX の matmul スループット優位が消える。
小さいモデル（14B 以下 dense）: MLX が依然リード。MTP のオーバーヘッドが見合わない。
MoE モデル（Qwen3.6 35B-A3B）: まちまち。MoE のルーティングが MTP の検証可能トークン数を制限する。

M3/M4 Max + 36GB 以上のユニファイドメモリ環境なら、今週は普段使いモデルを A/B テストする好機です。

今週末のアクションプラン

VRAM の余力を確認 — runlocal.dev カリキュレーターで、Qwen3.6 27B の Q4/Q5 + MTP オーバーヘッド（Q4 で約 +1.5GB）が収まるか確認。
24GB クラス（3090/4090/5090/7900 XTX）: 現行 main から llama.cpp をリビルド、Qwen3.6 27B MTP GGUF を取得、-ctk q8_0 -ctv q8_0 で KV キャッシュ VRAM を取り戻す。
Mac M3/M4 + 36GB 以上: LM Studio で同じ GGUF + MTP を読み込み、現状の MLX セットアップとベンチ比較。上記のコンセンサスと異なる結果が出たら共有してください。
8GB 以下: 手を出さない。Qwen3.6 8B か Gemma 4 E4B に留まる。あなたの速度向上戦略は量子化であって投機ではない。
AMD ユーザー: 現状 Strix Halo がコスパ最強の MTP ターゲット。Lemonade v10.5.1 + ROCm 7.13 が公式スタック。

今週を超えてなぜ重要か

MTP は以下を同時に満たす最初の speculative decoding 変種です:

モデル重みに組み込み済み（別途ドラフトモデルの取得・バージョン整合が不要）
1ヶ月以内に3つ以上の推論エンジンで標準化
コンシューマー級 VRAM で実用に達した（24GB で実モデルが本当に2倍速）

エージェンティックコーディングの実用ラインが動きました。3090 で Qwen3.6 27B が2倍速で動くことは、「ローカル LLM は珍しい玩具」と「ローカル LLM は Cursor の代替バックエンド」を分ける境界線です。Qwen3.7、次世代 DeepSeek、Llama 5 は MTP ヘッドをオプションではなく標準で搭載してくる、と見ています。

向こう60日の注目点: Ollama と MLX はいつ追いつくか。そしてコミュニティモデル（first-party 以外）が MTP 重みを出荷できる fine-tuning レシピが公開されるか。

次号: MTP 以後の推論エンジン勢力図 — Ollama、MLX、vLLM の進路を読み解く。

← 全ての記事