runlocal.cc
GPUを診断 →

Qwen 3.6 35B-A3B

MoEQwen

Alibaba のスパース MoE モデルで、総パラメーター数35B・アクティブ3Bという構成です。Qwen 3.5 比でコーディングベンチマークが大幅に向上し、推論コストは3B dense モデルに近い水準です。HuggingFace にアブリタレート版も公開されています。

提供元

Alibaba

パラメータ

3B active / 35B total (MoE)

コンテキスト

131.072K

リリース

2026-04-17

量子化別 VRAM 要件

量子化ディスク容量必要VRAM対応GPU
Q8_036 GB38 GB3 GPU
Q4_K_M19.5 GB21 GB9 GPU
Q4_018.5 GB20 GB9 GPU
Q2_K11.5 GB13 GB16 GPU

Ollama でインストール

ターミナルで実行:

ollama pull qwen3.6:35b-a3b

最低 VRAM 13GB が必要です。Ollama は以下からインストール: ollama.com

ベンチマークスコア

mmlu83.5%
humaneval88.2%

スコアは目安であり、量子化レベルにより変動します。

MTP(Multi-Token Prediction)

MTP ヘッド搭載モデル — llama.cpp 2026-05-16 以降、LM Studio、Lemonade で利用可能。

ハードウェア速度向上 (TG)
AMD Strix Halo1.60×

MoE — MTP gains are mixed; routing limits draft-token verification per forward pass.

対応GPU (16)

HuggingFace

Qwen/Qwen3.6-35B-A3B-Instruct

HFで見る →