runlocal.cc
GPUを診断 →
Issue #92026年5月21日

llama.cpp + MTP is here: Qwen3.6 27B hits 2.17× on an RTX 3090 — should you upgrade tonight?

Multi-Token Prediction landed in mainline llama.cpp this week. The real numbers across RTX 5090 / 3090 / Strix Halo / 8GB cards, and a one-table answer to whether MTP is worth your weekend.

今週何が起きたか

5月16日、PR #22673 が llama.cpp 本体にマージされ、Multi-Token Prediction (MTP) speculative decoding がコミュニティ fork から標準ビルドへ昇格しました。r/LocalLLaMA のフロントページでは24時間以内に 600+ upvote の投稿が立て続けに3本上がり、話題は一気に主流化しています。

4日後の5月20日には LM Studio が MTP に対応。Google AI Edge Gallery (v1.0.13/14) は Pixel TPU 上の Gemma 4 MTP を追加。Lemonade は macOS サポートが正式版に昇格。ローカル推論スタック全体が、わずか1週間で同じプリミティブに収束しました。

タイムライン:

5/06  Google が Gemma 4 MTP drafters を公開
5/13  コミュニティ fork: Qwen 向け MTP + TurboQuant が llama.cpp に
5/16  PR #22673 が本体にマージ
5/17  独立ベンチマーク登場(RTX 5090、Strix Halo)
5/19  追従 PR #23269: MTP の prompt processing 高速化
5/20  LM Studio が MTP UI を実装

MTP とは(60 秒で説明)

MTP は speculative decoding の一種です。別途小さな「ドラフトモデル」を並列で動かすのではなく、メインモデル自体に余分な予測ヘッドを組み込み、1回の forward pass で次の N トークンを提案します。モデルはそれを検証し、外れたものは巻き戻します。

メリット: VRAM に2つ目のモデルを置く必要がない、ドラフトとターゲットのバージョン不一致が起きない、カードに余裕があれば「タダで」高速化できる。

デメリット: 追加ヘッドが VRAM と KV キャッシュを消費する。VRAM 10GB 未満ではオーバーヘッドが利得を食いつぶす。

実測値

直近1週間の r/LocalLLaMA ベンチマーク投稿の集約:

ハードウェア モデル 速度向上 (TG) 備考
RTX 5090 (32GB) Qwen3.6 27B 約 2.0× Linux, llama.cpp 4f13cb7
RTX 3090 (24GB) Qwen3.6 27B 2.17× Headless、単一カード
AMD Strix Halo Qwen3.6 27B 2.44× 最高記録
AMD Strix Halo Qwen3.6 35B-A3B まちまち MoE は伸び幅が小さい
2× RTX 3090 Qwen3.6 27B MTP オフ比 +40% --split-mode tensor のクセあり
MI50 (32GB) Qwen3.6 27B 52.8 t/s MTP 未対応
GTX 1080 (8GB) Qwen3.6 35B-A3B 24+ t/s MoE オフロード、MTP なし
ラップトップ 6GB VRAM Qwen3.6 35B-A3B 割に合わない オーバーヘッドが利得を食う

一行結論: VRAM 24GB 以上 × dense な Qwen3.6 27B なら、MTP は実質タダの2倍速。今夜 llama.cpp をリビルドする価値あり。10GB 未満ならスキップ推奨。

ツールスタックの現状

ツール MTP 対応 備考
llama.cpp 本体マージ済 commit 4f13cb7 以降に更新を。PR #23198 + #23269 で PP 改善
LM Studio 対応済 UI トグル、5/20 リリース
Lemonade (AMD/Mac) 対応済 macOS 正式版、ROCm 7.13
Google AI Edge 対応済 Pixel TPU 上の Gemma 4 MTP
Ollama 未対応 公式アナウンスなし
MLX (Apple) 未対応 MTP パスはまだなし
vLLM 部分対応 Qwen3 MTP は動作、FP8 では効果報告なし

注意喚起: 5/16〜5/19 の間に MTP を試して prompt processing が遅いと感じた方、その問題は修正済みです。現在の main からリビルドしてください。

GGUF + MTP vs MLX: Mac 民の問い

今週の Apple Silicon ユーザー最大の話題: GGUF + MTP は MLX を超えたのか?

r/LocalLLaMA と Hacker News のコンセンサス:

  • 27B 以上の dense モデル: GGUF + MTP は M シリーズで MLX と同等または上回る。2倍の生成速度向上により、MLX の matmul スループット優位が消える。
  • 小さいモデル(14B 以下 dense): MLX が依然リード。MTP のオーバーヘッドが見合わない。
  • MoE モデル(Qwen3.6 35B-A3B): まちまち。MoE のルーティングが MTP の検証可能トークン数を制限する。

M3/M4 Max + 36GB 以上のユニファイドメモリ環境なら、今週は普段使いモデルを A/B テストする好機です。

今週末のアクションプラン

  1. VRAM の余力を確認runlocal.dev カリキュレーターで、Qwen3.6 27B の Q4/Q5 + MTP オーバーヘッド(Q4 で約 +1.5GB)が収まるか確認。
  2. 24GB クラス(3090/4090/5090/7900 XTX): 現行 main から llama.cpp をリビルド、Qwen3.6 27B MTP GGUF を取得、-ctk q8_0 -ctv q8_0 で KV キャッシュ VRAM を取り戻す。
  3. Mac M3/M4 + 36GB 以上: LM Studio で同じ GGUF + MTP を読み込み、現状の MLX セットアップとベンチ比較。上記のコンセンサスと異なる結果が出たら共有してください。
  4. 8GB 以下: 手を出さない。Qwen3.6 8B か Gemma 4 E4B に留まる。あなたの速度向上戦略は量子化であって投機ではない。
  5. AMD ユーザー: 現状 Strix Halo がコスパ最強の MTP ターゲット。Lemonade v10.5.1 + ROCm 7.13 が公式スタック。

今週を超えてなぜ重要か

MTP は以下を同時に満たす最初の speculative decoding 変種です:

  • モデル重みに組み込み済み(別途ドラフトモデルの取得・バージョン整合が不要)
  • 1ヶ月以内に3つ以上の推論エンジンで標準化
  • コンシューマー級 VRAM で実用に達した(24GB で実モデルが本当に2倍速)

エージェンティックコーディングの実用ラインが動きました。3090 で Qwen3.6 27B が2倍速で動くことは、「ローカル LLM は珍しい玩具」と「ローカル LLM は Cursor の代替バックエンド」を分ける境界線です。Qwen3.7、次世代 DeepSeek、Llama 5 は MTP ヘッドをオプションではなく標準で搭載してくる、と見ています。

向こう60日の注目点: Ollama と MLX はいつ追いつくか。そしてコミュニティモデル(first-party 以外)が MTP 重みを出荷できる fine-tuning レシピが公開されるか。

次号: MTP 以後の推論エンジン勢力図 — Ollama、MLX、vLLM の進路を読み解く。