Qwen 3.6 35B-A3B
MoEQwen
Alibaba のスパース MoE モデルで、総パラメーター数35B・アクティブ3Bという構成です。Qwen 3.5 比でコーディングベンチマークが大幅に向上し、推論コストは3B dense モデルに近い水準です。HuggingFace にアブリタレート版も公開されています。
提供元
Alibaba
パラメータ
3B active / 35B total (MoE)
コンテキスト
131.072K
リリース
2026-04-17
量子化別 VRAM 要件
| 量子化 | ディスク容量 | 必要VRAM | 対応GPU |
|---|---|---|---|
| Q8_0 | 36 GB | 38 GB | 3 GPU |
| Q4_K_M | 19.5 GB | 21 GB | 9 GPU |
| Q4_0 | 18.5 GB | 20 GB | 9 GPU |
| Q2_K | 11.5 GB | 13 GB | 16 GPU |
Ollama でインストール
ベンチマークスコア
mmlu83.5%
humaneval88.2%
スコアは目安であり、量子化レベルにより変動します。
MTP(Multi-Token Prediction)
MTP ヘッド搭載モデル — llama.cpp 2026-05-16 以降、LM Studio、Lemonade で利用可能。
ハードウェア速度向上 (TG)
AMD Strix Halo1.60×
MoE — MTP gains are mixed; routing limits draft-token verification per forward pass.
対応GPU (16)
AMD RX 9070 XT (16GB)AMD RX 7900 GRE (16GB)AMD RX 7900 XTX (24GB)AMD Ryzen AI Max+ 395 (unified memory) (64GB)Apple M4 Pro (24GB) (24GB)Apple M3 Max (36GB) (36GB)Apple M4 Max (48GB) (48GB)Apple M4 Ultra (64GB) (64GB)NVIDIA RTX 4070 Ti SUPER (16GB)NVIDIA RTX 4080 SUPER (16GB)NVIDIA RTX 5070 Ti (16GB)NVIDIA RTX 4060 Ti 16GB (16GB)NVIDIA RTX 5080 (16GB)NVIDIA RTX 4090 (24GB)NVIDIA RTX 3090 (24GB)NVIDIA RTX 5090 (32GB)
HuggingFace
Qwen/Qwen3.6-35B-A3B-Instruct