ローカルAI モデル
36 モデル収録 · 任意のモデルをクリックしてハードウェア要件とセットアップガイドを確認
Alibaba
Qwen 3.5 27B
11–29GB
VRAM
バランスの取れた27Bモデルで、高い推論性能を発揮します。Q4 量子化により16GB VRAM で動作します。
ollama pull qwen3.5:27b
Qwen 3.5 3B
2.5–4GB
VRAM
エッジデバイスや低 VRAM 環境向けの超コンパクト3Bモデルです。4GB VRAM で動作します。
ollama pull qwen3.5:3b
Qwen 3.5 72B
27–44GB
VRAM
Alibaba のフラッグシップ72Bモデルです。卓越した多言語対応能力と高い推論性能を持ちます。マルチ GPU または高 VRAM 環境が必要です。
ollama pull qwen3.5:72b
Qwen 3.5 9B
6.2–10.5GB
VRAM
優秀な9Bモデルで、コンシューマー向けハードウェアに最適です。パラメーター規模に対して推論タスクで非常に高い性能を発揮します。
ollama pull qwen3.5:9b
Qwen 3.6 27B
11–30GB
VRAM
Alibaba の27B dense マルチモーダルモデルです。SWE-bench Verified 77.2 を達成し、コーディング性能で Qwen 3.5 397B を上回ります。テキスト・画像・動画のネイティブ入力に対応しており、Claude Code および Qwen Code ツールと互換性があります。
ollama pull qwen3.6:27b
Qwen 3.6 35B-A3B
13–38GB
VRAM
Alibaba のスパース MoE モデルで、総パラメーター数35B・アクティブ3Bという構成です。Qwen 3.5 比でコーディングベンチマークが大幅に向上し、推論コストは3B dense モデルに近い水準です。HuggingFace にアブリタレート版も公開されています。
ollama pull qwen3.6:35b-a3b
DeepSeek
DeepSeek R1 7B
5.2–8.5GB
VRAM
DeepSeek の推論特化型7B蒸留モデルです。強力な思考連鎖推論を持ち、8GB VRAM で動作します。
ollama pull deepseek-r1:7b
DeepSeek V4 Flash
180–580GB
VRAM
V4 Pro の蒸留 Flash バリアントです。シンプルなエージェントタスクでは Pro に近い性能を1/12のコスト($0.14/$0.28 per Mトークン)で実現します。ルーチンタスクにおけるV4 Pro との性能差はほぼゼロです。コンシューマー向けハードウェアでのローカル実行には対応していません。
DeepSeek V4 Pro
3100–3100GB
VRAM
DeepSeek のフロンティア1.6T MoE モデルで、大規模 FP4 QAT を用いて訓練されています。独自の Hybrid Attention(CSA+HCA)と Manifold-Constrained Hyper-Connections を採用し、残差接続を置き換えています。API 経由で$1.74/$3.48 per Mトークン。ローカル実行には対応していません。
Gemma 4 27B
11.5–30GB
VRAM
Google の Gemma 4 27B MoE モデルです。トークンあたりのアクティブパラメーターは4Bのみで、フロンティアに迫る品質を低い計算コストで実現しています。
ollama pull gemma4:27b
Gemma 4 31B
11–34GB
VRAM
Google のフラッグシップ dense 31B モデルで、256K コンテキストに対応しています。フロンティアに迫る品質を持ち、コードと推論においてオープンソース最高峰の性能を発揮します。Arena Elo ~1452。
ollama pull gemma4:31b
Gemma 4 E2B
3.2–6GB
VRAM
Google の超コンパクトなマルチモーダル MoE モデルです。アクティブパラメーターは2.3Bのみで、テキスト・画像・音声のフル対応を実現しています。Gemma 4 ファミリー中、最も低い VRAM で動作します。
ollama pull gemma4:e2b
Gemma 4 E4B
3.2–5.5GB
VRAM
Google の効率的な4Bアクティブ MoE モデルです。計算リソースあたりの性能が優れており、一般的なコンシューマー向けハードウェアで動作します。
ollama pull gemma4:e4b
OpenAI
PrismML
Ternary Bonsai 1.7B
0.6–0.6GB
VRAM
エッジクラスの三値モデルです。スマートフォンや小型組み込みデバイスで動作します。1.7B パラメーターに1.58ビット量子化を適用。現在は MLX パック形式のみ。llama.cpp / vLLM 移植作業が進行中です。
Ternary Bonsai 4B
1.2–1.2GB
VRAM
中規模の三値モデルです。1.58ビットの重み {-1, 0, +1} により、同バイト予算の dense モデルを上回る性能をラップトップクラスのフットプリントで実現します。現在は MLX 2ビットパック形式のみ対応です。
Ternary Bonsai 8B
2–2GB
VRAM
1.58ビット三値量子化モデルです。重みは {-1, 0, +1} のみで構成され、同パラメーター数の FP16 比でメモリ使用量が約1/9になります。現在は MLX 2ビットパック形式のみ対応。他バックエンドは近日公開予定です。
Zhipu AI
GLM 4.6
105–195GB
VRAM
Zhipu の357B MoE モデルです。API 経由で$0.6/Mトークン。ローカル展開には8×H200 または同等のマルチ GPU 環境と vLLM v0.19+ が必要です。コンシューマー GPU での動作は想定されていません。
GLM 5
215–400GB
VRAM
Zhipu の744B フロンティア MoE モデルです。API 経由で$1.0/Mトークン。クラスタースケールの展開のみ対応。積極的な量子化でも200GB+ VRAM が必要です。
GLM 5.1
220–410GB
VRAM
Zhipu の754B フラッグシップ MoE モデルです。API 経由で$1.4/Mトークン。エージェント型コーディングベンチマークで高い性能を発揮します。コンシューマー向けハードウェアでのローカル実行には対応していません。GLM-5 との比較参照用として掲載しています。