Nemotron-3 Nano Omni 30B-A3B

MoENVIDIA Open License

Mamba-2・MoE・Attention のハイブリッドアーキテクチャを採用しています。テキスト・画像・動画・音声の四モダリティをネイティブ統合理解し、MMLongBench-Doc / OCRBenchV2 / VoiceBench でクラス最高性能を達成しています。Mamba レイヤーにより計算効率が約4倍向上。256Kコンテキスト（最大1M）。HuggingFace で BF16、Unsloth GGUF と OpenRouter の無料枠でも利用可能です。

提供元

NVIDIA

パラメータ

3.5B active / 30B total (Mamba-2 + MoE + Attention)

コンテキスト

262.144K

リリース

2026-04-29

量子化別 VRAM 要件

量子化	ディスク容量	必要VRAM	対応GPU
Q8_0	31 GB	33 GB	4 GPU
Q4_K_M	17.5 GB	19 GB	9 GPU
Q4_0	16.5 GB	18 GB	9 GPU
Q2_K	10.5 GB	12 GB	16 GPU

Ollama でインストール

ターミナルで実行:

ollama pull nemotron3-nano-omni

最低 VRAM 12GB が必要です。Ollama は以下からインストール: ollama.com

ベンチマークスコア

mmlu80.5%

humaneval78%

スコアは目安であり、量子化レベルにより変動します。

対応GPU (16)

AMD RX 9070 XT (16GB)AMD RX 7900 GRE (16GB)AMD RX 7900 XTX (24GB)AMD Ryzen AI Max+ 395 (unified memory) (64GB)Apple M4 Pro (24GB) (24GB)Apple M3 Max (36GB) (36GB)Apple M4 Max (48GB) (48GB)Apple M4 Ultra (64GB) (64GB)NVIDIA RTX 4070 Ti SUPER (16GB)NVIDIA RTX 4080 SUPER (16GB)NVIDIA RTX 5070 Ti (16GB)NVIDIA RTX 4060 Ti 16GB (16GB)NVIDIA RTX 5080 (16GB)NVIDIA RTX 4090 (24GB)NVIDIA RTX 3090 (24GB)NVIDIA RTX 5090 (32GB)

HuggingFace

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning

HFで見る →