runlocal.cc
GPUを診断 →

Nemotron-3 Nano Omni 30B-A3B

MoENVIDIA Open License

Mamba-2・MoE・Attention のハイブリッドアーキテクチャを採用しています。テキスト・画像・動画・音声の四モダリティをネイティブ統合理解し、MMLongBench-Doc / OCRBenchV2 / VoiceBench でクラス最高性能を達成しています。Mamba レイヤーにより計算効率が約4倍向上。256Kコンテキスト(最大1M)。HuggingFace で BF16、Unsloth GGUF と OpenRouter の無料枠でも利用可能です。

提供元

NVIDIA

パラメータ

3.5B active / 30B total (Mamba-2 + MoE + Attention)

コンテキスト

262.144K

リリース

2026-04-29

量子化別 VRAM 要件

量子化ディスク容量必要VRAM対応GPU
Q8_031 GB33 GB4 GPU
Q4_K_M17.5 GB19 GB9 GPU
Q4_016.5 GB18 GB9 GPU
Q2_K10.5 GB12 GB16 GPU

Ollama でインストール

ターミナルで実行:

ollama pull nemotron3-nano-omni

最低 VRAM 12GB が必要です。Ollama は以下からインストール: ollama.com

ベンチマークスコア

mmlu80.5%
humaneval78%

スコアは目安であり、量子化レベルにより変動します。

対応GPU (16)

HuggingFace

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning

HFで見る →