Qwen 3.6 35B-A3B

MoEQwen

Alibaba のスパース MoE モデルで、総パラメーター数35B・アクティブ3Bという構成です。Qwen 3.5 比でコーディングベンチマークが大幅に向上し、推論コストは3B dense モデルに近い水準です。HuggingFace にアブリタレート版も公開されています。

提供元

Alibaba

パラメータ

3B active / 35B total (MoE)

コンテキスト

131.072K

リリース

2026-04-17

量子化別 VRAM 要件

量子化	ディスク容量	必要VRAM	対応GPU
Q8_0	36 GB	38 GB	3 GPU
Q4_K_M	19.5 GB	21 GB	9 GPU
Q4_0	18.5 GB	20 GB	9 GPU
Q2_K	11.5 GB	13 GB	16 GPU

ターミナルで実行:

ollama pull qwen3.6:35b-a3b

最低 VRAM 13GB が必要です。Ollama は以下からインストール: ollama.com

mmlu83.5%

humaneval88.2%

スコアは目安であり、量子化レベルにより変動します。

MTP ヘッド搭載モデル — llama.cpp 2026-05-16 以降、LM Studio、Lemonade で利用可能。

ハードウェア速度向上 (TG)

AMD Strix Halo1.60×

MoE — MTP gains are mixed; routing limits draft-token verification per forward pass.

HuggingFace

Qwen/Qwen3.6-35B-A3B-Instruct