ローカルAI モデル

36 モデル収録 · 任意のモデルをクリックしてハードウェア要件とセットアップガイドを確認

Alibaba

Qwen 3.5 27B

27BQwen

11–29GB

VRAM

バランスの取れた27Bモデルで、高い推論性能を発揮します。Q4 量子化により16GB VRAM で動作します。

ollama pull qwen3.5:27b

Qwen 3.5 3B

3BQwen

2.5–4GB

VRAM

エッジデバイスや低 VRAM 環境向けの超コンパクト3Bモデルです。4GB VRAM で動作します。

ollama pull qwen3.5:3b

Qwen 3.5 72B

72BQwen

27–44GB

VRAM

Alibaba のフラッグシップ72Bモデルです。卓越した多言語対応能力と高い推論性能を持ちます。マルチ GPU または高 VRAM 環境が必要です。

ollama pull qwen3.5:72b

Qwen 3.5 9B

9BQwen

6.2–10.5GB

VRAM

優秀な9Bモデルで、コンシューマー向けハードウェアに最適です。パラメーター規模に対して推論タスクで非常に高い性能を発揮します。

ollama pull qwen3.5:9b

Qwen 3.6 27B

27BQwen

11–30GB

VRAM

Alibaba の27B dense マルチモーダルモデルです。SWE-bench Verified 77.2 を達成し、コーディング性能で Qwen 3.5 397B を上回ります。テキスト・画像・動画のネイティブ入力に対応しており、Claude Code および Qwen Code ツールと互換性があります。

ollama pull qwen3.6:27b

Qwen 3.6 35B-A3B

3B active / 35B total (MoE)MoEQwen

13–38GB

VRAM

Alibaba のスパース MoE モデルで、総パラメーター数35B・アクティブ3Bという構成です。Qwen 3.5 比でコーディングベンチマークが大幅に向上し、推論コストは3B dense モデルに近い水準です。HuggingFace にアブリタレート版も公開されています。

ollama pull qwen3.6:35b-a3b

Ant Group / InclusionAI

Ling 2.6 1T

50B active / 1T total (MoE)MoEApache 2.0

600–1900GB

VRAM

Ant Group の1T MoE モデルで、50Bアクティブパラメーターと262Kコンテキストを備えています。AA Intelligence Index 第2位/40モデル（スコア34 vs 平均13）。$0.30/$2.50 per Mトークン。OpenRouter に Flash バリアントあり。オープンウェイト公開予定です。

DeepSeek

DeepSeek R1 7B

7BMIT

5.2–8.5GB

VRAM

DeepSeek の推論特化型7B蒸留モデルです。強力な思考連鎖推論を持ち、8GB VRAM で動作します。

ollama pull deepseek-r1:7b

DeepSeek V4 Flash

158B active / 292B total (MoE)MoEDeepSeek

180–580GB

VRAM

V4 Pro の蒸留 Flash バリアントです。シンプルなエージェントタスクでは Pro に近い性能を1/12のコスト（$0.14/$0.28 per Mトークン）で実現します。ルーチンタスクにおけるV4 Pro との性能差はほぼゼロです。コンシューマー向けハードウェアでのローカル実行には対応していません。

DeepSeek V4 Pro

862B active / 1.6T total (MoE)MoEDeepSeek

3100–3100GB

VRAM

DeepSeek のフロンティア1.6T MoE モデルで、大規模 FP4 QAT を用いて訓練されています。独自の Hybrid Attention（CSA+HCA）と Manifold-Constrained Hyper-Connections を採用し、残差接続を置き換えています。API 経由で$1.74/$3.48 per Mトークン。ローカル実行には対応していません。

Google

Gemma 4 27B

27B (4B active MoE)MoEGemma

11.5–30GB

VRAM

Google の Gemma 4 27B MoE モデルです。トークンあたりのアクティブパラメーターは4Bのみで、フロンティアに迫る品質を低い計算コストで実現しています。

ollama pull gemma4:27b

Gemma 4 31B

31BApache 2.0

11–34GB

VRAM

Google のフラッグシップ dense 31B モデルで、256K コンテキストに対応しています。フロンティアに迫る品質を持ち、コードと推論においてオープンソース最高峰の性能を発揮します。Arena Elo ~1452。

ollama pull gemma4:31b

Gemma 4 E2B

2.3B active / 5B totalMoEApache 2.0

3.2–6GB

VRAM

Google の超コンパクトなマルチモーダル MoE モデルです。アクティブパラメーターは2.3Bのみで、テキスト・画像・音声のフル対応を実現しています。Gemma 4 ファミリー中、最も低い VRAM で動作します。

ollama pull gemma4:e2b

Gemma 4 E4B

4B active (MoE)MoEGemma

3.2–5.5GB

VRAM

Google の効率的な4Bアクティブ MoE モデルです。計算リソースあたりの性能が優れており、一般的なコンシューマー向けハードウェアで動作します。

ollama pull gemma4:e4b

Google DeepMind

Gemma 4 26B-A4B

26B (4B active MoE)MoEGemma

10.5–29GB

VRAM

26Bプールから4Bをアクティブに使用する Gemma 4 MoE バリアントです。Unsloth が22段階の量子化レベルでクラス最高の GGUF を達成しており、Gemma 4 ファミリー中で最も幅広い量子化カバレッジを提供します。

ollama pull gemma4:26b-a4b

L'Électron Rare

micro-kiki v3

3B active / 35B total (MoE + 35 LoRAs)MoEApache 2.0

13–21GB

VRAM

Qwen 3.5 35B-A3B をベースに、35種類のドメイン LoRA エキスパートと自動ルーターを搭載したモデルです。Aeon 長期記憶を備えた組み込みエンジニアリング特化モデルです。FineFab 上で構築された、完全オープンソースの LoRA ルーティング参照実装です。

Microsoft

Phi-4

14BMIT

9–16GB

VRAM

Microsoft の14Bモデルで、そのサイズに対して卓越した推論性能を持ちます。数学・科学・STEMタスクで特に高い性能を発揮します。

ollama pull phi4

MiniMax

MiniMax M2.7

Unknown (MoE)MoEApache 2.0

31–50GB

VRAM

MiniMax の自己進化型 MoE モデルで、1Mトークンコンテキストに対応しています。Apache 2.0 ライセンスのもと最近オープンソース化されました。

ollama pull minimax-m2.7

Mistral AI

Mistral Small 3.2

22BApache 2.0

13.5–24.5GB

VRAM

Mistral の効率的な22Bモデルで、高い指示追従性能と多言語サポートを備えています。Apache 2.0 ライセンスです。

ollama pull mistral-small

Moonshot AI

Kimi K2.6

32B active / 1T total (MoE)MoEKimi

584–1900GB

VRAM

Moonshot のフラッグシップ1T MoE モデルで、32Bアクティブパラメーターと256Kコンテキストを備えています。BenchLM 89.9（111モデル中第6位）。SWE-bench では Claude Opus 4.6 と同等の性能を発揮し、300の並列サブエージェントをサポートします。Q4 ローカル実行には584GB+ の RAM+VRAM が必要なため、クラウド/API の利用を推奨します。

NVIDIA

Nemotron-3 Nano Omni 30B-A3B

3.5B active / 30B total (Mamba-2 + MoE + Attention)MoENVIDIA Open License

12–33GB

VRAM

Mamba-2・MoE・Attention のハイブリッドアーキテクチャを採用しています。テキスト・画像・動画・音声の四モダリティをネイティブ統合理解し、MMLongBench-Doc / OCRBenchV2 / VoiceBench でクラス最高性能を達成しています。Mamba レイヤーにより計算効率が約4倍向上。256Kコンテキスト（最大1M）。HuggingFace で BF16、Unsloth GGUF と OpenRouter の無料枠でも利用可能です。

ollama pull nemotron3-nano-omni

OpenAI

GPT-5.5

UnknownProprietary

OpenAI の新フラッグシップマルチモーダルモデルです。「天才級の視覚 IQ」として市場投入されています。クローズドウェイトの API 専用モデルで、ローカルモデルのベンチマーク比較基準点として掲載しています。

GPT-5.5 Pro

UnknownProprietary

GPT-5.5 の深層推論ティアです。ゲーデル型テストに合格し、未解決の数学予想を解読したとされています。API 専用プレミアムモデルで、フロンティア比較のアンカーとして掲載しています。

OpenBMB

MiniCPM 4.6

1.2BApache 2.0

1.2–1.8GB

VRAM

MiniCPM 4 ラインのエッジクラス1.2B dense モデルです。スマートフォン・エッジボックス・ノートPC CPU をターゲットとしており、オンデバイスワークロードで Qwen 3.6 サブ3B蒸留モデルと競合します。

ollama pull minicpm:4.6

Poolside AI

Poolside Laguna XS.2

3B active / 33B total (MoE)MoEApache 2.0

12.5–37GB

VRAM

エージェント型コーディングに特化した Apache-2.0 の33B A3B MoE モデルです。エージェントベンチマークで Qwen 3.5 35B-A3B とほぼ同等の性能を発揮しつつ、完全なオープンウェイトを維持しています。

ollama pull laguna-xs2

PrismML

Ternary Bonsai 1.7B

1.7BApache 2.0

0.6–0.6GB

VRAM

エッジクラスの三値モデルです。スマートフォンや小型組み込みデバイスで動作します。1.7B パラメーターに1.58ビット量子化を適用。現在は MLX パック形式のみ。llama.cpp / vLLM 移植作業が進行中です。

Ternary Bonsai 4B

4BApache 2.0

1.2–1.2GB

VRAM

中規模の三値モデルです。1.58ビットの重み {-1, 0, +1} により、同バイト予算の dense モデルを上回る性能をラップトップクラスのフットプリントで実現します。現在は MLX 2ビットパック形式のみ対応です。

Ternary Bonsai 8B

8BApache 2.0

2–2GB

VRAM

1.58ビット三値量子化モデルです。重みは {-1, 0, +1} のみで構成され、同パラメーター数の FP16 比でメモリ使用量が約1/9になります。現在は MLX 2ビットパック形式のみ対応。他バックエンドは近日公開予定です。

SpaceXAI

Grok 4.3

UnknownProprietary

xAI の SpaceXAI へのリブランドと同時にリリースされたモデルです。クローズドウェイトの API 専用モデルで、クラウドフロンティア比較行の完全性確保のために掲載しています。

Tencent

HunYuan Hy3

21B active / 295B total (MoE)MoEHunYuan

180–590GB

VRAM

Tencent のオープンソースプレビュー MoE モデルです。推論・コーディング性能が前世代比+40%向上しています。295Bプールから21Bをアクティブに使用します。重みは HuggingFace で公開中。スケールを伴うローカル展開にはマルチ GPU が必要です。

Xiaomi

Mimo v2.5

15B active / 310B total (Sparse MoE)MoEApache 2.0

195–620GB

VRAM

Xiaomi 初のオープンソースフラッグシップモデルです。310B Sparse MoE に15Bアクティブパラメーターを持ち、テキスト・画像・動画・音声のフルマルチモーダルに対応しています。リリース当日に llama.cpp PR #22493 がマージされました。ローカル実行には200GB+ の総メモリが必要なため、現時点ではクラウド/API のリファレンスとして掲載しています。

Zhipu AI

GLM 4.6

357BMoEGLM

105–195GB

VRAM

Zhipu の357B MoE モデルです。API 経由で$0.6/Mトークン。ローカル展開には8×H200 または同等のマルチ GPU 環境と vLLM v0.19+ が必要です。コンシューマー GPU での動作は想定されていません。

GLM 5

744BMoEGLM

215–400GB

VRAM

Zhipu の744B フロンティア MoE モデルです。API 経由で$1.0/Mトークン。クラスタースケールの展開のみ対応。積極的な量子化でも200GB+ VRAM が必要です。

GLM 5.1

754BMoEGLM

220–410GB

VRAM

Zhipu の754B フラッグシップ MoE モデルです。API 経由で$1.4/Mトークン。エージェント型コーディングベンチマークで高い性能を発揮します。コンシューマー向けハードウェアでのローカル実行には対応していません。GLM-5 との比較参照用として掲載しています。

Zyphra AI

Zyphra ZAYA1-8B

8B (MoE)MoEApache 2.0

5.6–9.5GB

VRAM

AMD GPU で訓練されたコンパクトな推論チューニング MoE モデルで、パラメーターあたりの知性密度を最適化しています。Q4 量子化で12GB のシングルカードに収まります。

ollama pull zaya1:8b

ローカルAI モデル

Alibaba

Ant Group / InclusionAI

DeepSeek

Google

Google DeepMind

L'Électron Rare

Meta

Microsoft

MiniMax

Mistral AI

Moonshot AI

NVIDIA

OpenAI

OpenBMB

Poolside AI

PrismML

SpaceXAI

Tencent

Xiaomi

Zhipu AI

Zyphra AI