Omni-modal locals land, GPT-5.5 resets the frontier
Nemotron-3 Nano Omni puts four modalities on a 24GB card. OpenAI ships GPT-5.5 to everyone. Xiaomi enters the open-weight flagship tier.
Issue #4 から2週間が経ちました。クラウドフロンティアは動き(GPT-5.5、Grok 4.3)、そして静かに、しかしより重要な動きとして、ローカルフロンティアが30Bクラスのフットプリントでネイティブ4モダリティのサポートを獲得しました。
リリース情報(4月25日〜5月8日)
| モデル | プロバイダー | パラメータ数 | ローカル対応 | 特徴 |
|---|---|---|---|---|
| Nemotron-3 Nano Omni 30B-A3B | NVIDIA | 30B/3.5B Mamba-MoE | ✓ | テキスト・画像・動画・音声のネイティブ対応、256K〜1M コンテキスト |
| Poolside Laguna XS.2 | Poolside AI | 33B/3B MoE | ✓ | Apache-2.0、エージェント型コーディング向け |
| Zyphra ZAYA1-8B | Zyphra AI | 8B MoE | ✓ | AMDシリコン上で学習、12GB環境に最適 |
| Mimo v2.5 | Xiaomi | 310B/15B MoE | Cloud | Xiaomi初のオープンフラッグシップ、llama.cpp PRをリリース初日にマージ |
| GPT-5.5 / Pro | OpenAI | — | Cloud | 新たなフロンティアの基準点、ゲーデルレベルの推論能力 |
| Grok 4.3 | SpaceXAI | — | Cloud | xAI → SpaceXAI へのリブランドと同時リリース |
モデルディレクトリには掲載していませんが、注目すべき情報もあります。NVIDIAの Gemma-4-26B-A4B-NVFP4 クオント(RTX 5090 1枚で動作、VRAM の80%使用時に50kコンテキスト対応)、Googleの Gemma 4 MTP ドラフトモデル(スペキュラティブデコーディング用、Ollama v0.23.1 でリリース初日対応)、そしてOpenAIの Privacy Filter(150M パラメータ、Apache-2.0 ライセンスのPIIスクラバー)などがあります。
ローカルの注目モデル:Nemotron-3 Nano Omni 30B-A3B
NVIDIAが、総パラメータ30B・アクティブパラメータ3.5Bのハイブリッドモデルをリリースしました(Mamba-2 + MoE + Attention)。このモデルはテキスト・画像・動画・音声をネイティブに処理でき、256K(最大1M)のコンテキストに対応しています。同規模のモデルの中で、MMLongBench-Doc、OCRBenchV2、VoiceBenchのトップを記録しています。Mambaレイヤーにより、同サイズのアテンションモデルと比較して約4倍の計算効率を実現しています。
24GB の GPU カードをお持ちなら、今すぐ試すべき新しい「面白いモデル」です。注目すべき3つの特性を紹介します:
- アクティブパラメータのフットプリント — アクティブパラメータが3.5Bであるため、トークン生成コストは30Bの密なモデルではなく、9Bの密なモデルに近い水準になります。
- モダリティのカバレッジ — これまでのオムニモデルのほとんどは、クローズドソース(Gemini、GPT-4o)か、部分的な対応(ビジョンのみ)でした。このモデルは真の意味で4モダリティ対応のオープンウェイト・商用利用可能なモデルです。
- 配布形態 — HuggingFace でBF16形式を公開、Unsloth GGUF もリリース初日から対応、ウェイトをダウンロードする前にOpenRouterの無料ティアで評価できます。
同じ期間のおすすめモデル:
- Poolside Laguna XS.2 — Apache-2.0ライセンス、33B/A3B、エージェント型コーディングに特化。Qwen 3.5 35B-A3B とほぼ同等のベンチマーク結果を出しながら、完全なオープンウェイトを維持しています。
- Zyphra ZAYA1-8B — AMD GPU上で学習されたコンパクトな推論チューニング済みMoE。パラメータあたりの性能を最大化しており、12GB カードでの Q4 動作も問題ありません。
クラウド動向:GPT-5.5 時代の幕開け
OpenAI は GPT-5.5(5月6日)をリリースし、GPT-5.5 Instant を無料ティアのChatGPTにも展開しました(5月7日。GPT-5.3 Instant と比較して、重要なプロンプトでのハルシネーションが約52.5%減少したと報告されています)。また、新たな深い推論のアンカーモデルとして GPT-5.5 Pro もリリースしました。xAI は同週に SpaceXAI へリブランドし、Grok 4.3 をリリースしました。バックグラウンドでは、Anthropic と SpaceXAI が Colossus1 コンピュート契約を締結しました。
ローカルAIのニュースレターでもこれらの動向に触れる価値があります。なぜなら、目標となる水準そのものが変化するからです。ローカルで動かせるモデルとフロンティアモデルとの能力差は、純粋な知性という観点では広がりました。しかし、コストあたりのスループットの差は着実に縮まっており、この点については Issue #6 で詳しく取り上げる予定です。
Xiaomのひっそりとした参入
GPT-5.5 の話題に隠れがちですが、Mimo v2.5 はオープンソース界隈における重要な出来事です。アクティブパラメータ15Bの310B スパース MoE モデルで、完全なマルチモーダル対応、llama.cpp の PR #22493 もリリース初日にマージされました。現時点ではクラスター環境(合計200GB以上のVRAM)がないとローカル実行は難しいですが、この動きが持つ意味は大きいです。主要な家電メーカーが、ペイウォールなしで完全なオープンマルチモーダルフラッグシップモデルを公開したのです。
中国勢からの注目情報として、Doubao-Seed-2.0-lite(ByteDance製、オムニモーダル)と SenseNova 6.7 Flash-Lite(SenseTime製、密なウェブ・ドキュメントレイアウトを直接解析できるマルチモーダルエージェント)も登場しています。
今週やるべきこと
- 24GB カードをお持ちの方:Nemotron-3 Nano Omni 30B-A3B Q4_K_M をダウンロードしてください。画像と音声が埋め込まれたドキュメントを渡してみて、あなたのワークロードでオムニ対応が本当に機能するか確認しましょう。
- 12GB カードをお持ちの方:デイリードライバーの候補として ZAYA1-8B Q4_K_M を試し、Qwen 3.6 9B の蒸留モデルと比較してみてください。
- エージェント型コーディングスタック:Qwen 3.5 35B-A3B のベンチマーク枠に Poolside Laguna XS.2 を入れて再評価してみてください。
- クラウド比較環境:「ローカル最良 vs クラウド最良」の評価スクリプトを管理している方は、クラウドのベースラインを Opus 4.7 ではなく GPT-5.5 Pro に更新してください。
次号では、コストカーブを静かに塗り替えている推論エンジンの波(MTP、DFlash、PAGED MoE)を取り上げます。
— runlocal