Nemotron-3 Nano Omni 30B-A3B
MoENVIDIA Open License
Mamba-2・MoE・Attention のハイブリッドアーキテクチャを採用しています。テキスト・画像・動画・音声の四モダリティをネイティブ統合理解し、MMLongBench-Doc / OCRBenchV2 / VoiceBench でクラス最高性能を達成しています。Mamba レイヤーにより計算効率が約4倍向上。256Kコンテキスト(最大1M)。HuggingFace で BF16、Unsloth GGUF と OpenRouter の無料枠でも利用可能です。
提供元
NVIDIA
パラメータ
3.5B active / 30B total (Mamba-2 + MoE + Attention)
コンテキスト
262.144K
リリース
2026-04-29
量子化別 VRAM 要件
| 量子化 | ディスク容量 | 必要VRAM | 対応GPU |
|---|---|---|---|
| Q8_0 | 31 GB | 33 GB | 4 GPU |
| Q4_K_M | 17.5 GB | 19 GB | 9 GPU |
| Q4_0 | 16.5 GB | 18 GB | 9 GPU |
| Q2_K | 10.5 GB | 12 GB | 16 GPU |
Ollama でインストール
ベンチマークスコア
mmlu80.5%
humaneval78%
スコアは目安であり、量子化レベルにより変動します。
対応GPU (16)
AMD RX 9070 XT (16GB)AMD RX 7900 GRE (16GB)AMD RX 7900 XTX (24GB)AMD Ryzen AI Max+ 395 (unified memory) (64GB)Apple M4 Pro (24GB) (24GB)Apple M3 Max (36GB) (36GB)Apple M4 Max (48GB) (48GB)Apple M4 Ultra (64GB) (64GB)NVIDIA RTX 4070 Ti SUPER (16GB)NVIDIA RTX 4080 SUPER (16GB)NVIDIA RTX 5070 Ti (16GB)NVIDIA RTX 4060 Ti 16GB (16GB)NVIDIA RTX 5080 (16GB)NVIDIA RTX 4090 (24GB)NVIDIA RTX 3090 (24GB)NVIDIA RTX 5090 (32GB)
HuggingFace
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning