runlocal.cc
GPUを診断 →
Issue #52026年5月8日

Omni-modal locals land, GPT-5.5 resets the frontier

Nemotron-3 Nano Omni puts four modalities on a 24GB card. OpenAI ships GPT-5.5 to everyone. Xiaomi enters the open-weight flagship tier.

Issue #4 から2週間が経ちました。クラウドフロンティアは動き(GPT-5.5、Grok 4.3)、そして静かに、しかしより重要な動きとして、ローカルフロンティアが30Bクラスのフットプリントでネイティブ4モダリティのサポートを獲得しました。

リリース情報(4月25日〜5月8日)

モデル プロバイダー パラメータ数 ローカル対応 特徴
Nemotron-3 Nano Omni 30B-A3B NVIDIA 30B/3.5B Mamba-MoE テキスト・画像・動画・音声のネイティブ対応、256K〜1M コンテキスト
Poolside Laguna XS.2 Poolside AI 33B/3B MoE Apache-2.0、エージェント型コーディング向け
Zyphra ZAYA1-8B Zyphra AI 8B MoE AMDシリコン上で学習、12GB環境に最適
Mimo v2.5 Xiaomi 310B/15B MoE Cloud Xiaomi初のオープンフラッグシップ、llama.cpp PRをリリース初日にマージ
GPT-5.5 / Pro OpenAI Cloud 新たなフロンティアの基準点、ゲーデルレベルの推論能力
Grok 4.3 SpaceXAI Cloud xAI → SpaceXAI へのリブランドと同時リリース

モデルディレクトリには掲載していませんが、注目すべき情報もあります。NVIDIAの Gemma-4-26B-A4B-NVFP4 クオント(RTX 5090 1枚で動作、VRAM の80%使用時に50kコンテキスト対応)、Googleの Gemma 4 MTP ドラフトモデル(スペキュラティブデコーディング用、Ollama v0.23.1 でリリース初日対応)、そしてOpenAIの Privacy Filter(150M パラメータ、Apache-2.0 ライセンスのPIIスクラバー)などがあります。

ローカルの注目モデル:Nemotron-3 Nano Omni 30B-A3B

NVIDIAが、総パラメータ30B・アクティブパラメータ3.5Bのハイブリッドモデルをリリースしました(Mamba-2 + MoE + Attention)。このモデルはテキスト・画像・動画・音声をネイティブに処理でき、256K(最大1M)のコンテキストに対応しています。同規模のモデルの中で、MMLongBench-Doc、OCRBenchV2、VoiceBenchのトップを記録しています。Mambaレイヤーにより、同サイズのアテンションモデルと比較して約4倍の計算効率を実現しています。

24GB の GPU カードをお持ちなら、今すぐ試すべき新しい「面白いモデル」です。注目すべき3つの特性を紹介します:

  1. アクティブパラメータのフットプリント — アクティブパラメータが3.5Bであるため、トークン生成コストは30Bの密なモデルではなく、9Bの密なモデルに近い水準になります。
  2. モダリティのカバレッジ — これまでのオムニモデルのほとんどは、クローズドソース(Gemini、GPT-4o)か、部分的な対応(ビジョンのみ)でした。このモデルは真の意味で4モダリティ対応のオープンウェイト・商用利用可能なモデルです。
  3. 配布形態 — HuggingFace でBF16形式を公開、Unsloth GGUF もリリース初日から対応、ウェイトをダウンロードする前にOpenRouterの無料ティアで評価できます。

同じ期間のおすすめモデル:

  • Poolside Laguna XS.2 — Apache-2.0ライセンス、33B/A3B、エージェント型コーディングに特化。Qwen 3.5 35B-A3B とほぼ同等のベンチマーク結果を出しながら、完全なオープンウェイトを維持しています。
  • Zyphra ZAYA1-8B — AMD GPU上で学習されたコンパクトな推論チューニング済みMoE。パラメータあたりの性能を最大化しており、12GB カードでの Q4 動作も問題ありません。

クラウド動向:GPT-5.5 時代の幕開け

OpenAI は GPT-5.5(5月6日)をリリースし、GPT-5.5 Instant を無料ティアのChatGPTにも展開しました(5月7日。GPT-5.3 Instant と比較して、重要なプロンプトでのハルシネーションが約52.5%減少したと報告されています)。また、新たな深い推論のアンカーモデルとして GPT-5.5 Pro もリリースしました。xAI は同週に SpaceXAI へリブランドし、Grok 4.3 をリリースしました。バックグラウンドでは、Anthropic と SpaceXAI が Colossus1 コンピュート契約を締結しました。

ローカルAIのニュースレターでもこれらの動向に触れる価値があります。なぜなら、目標となる水準そのものが変化するからです。ローカルで動かせるモデルとフロンティアモデルとの能力差は、純粋な知性という観点では広がりました。しかし、コストあたりのスループットの差は着実に縮まっており、この点については Issue #6 で詳しく取り上げる予定です。

Xiaomのひっそりとした参入

GPT-5.5 の話題に隠れがちですが、Mimo v2.5 はオープンソース界隈における重要な出来事です。アクティブパラメータ15Bの310B スパース MoE モデルで、完全なマルチモーダル対応、llama.cpp の PR #22493 もリリース初日にマージされました。現時点ではクラスター環境(合計200GB以上のVRAM)がないとローカル実行は難しいですが、この動きが持つ意味は大きいです。主要な家電メーカーが、ペイウォールなしで完全なオープンマルチモーダルフラッグシップモデルを公開したのです。

中国勢からの注目情報として、Doubao-Seed-2.0-lite(ByteDance製、オムニモーダル)と SenseNova 6.7 Flash-Lite(SenseTime製、密なウェブ・ドキュメントレイアウトを直接解析できるマルチモーダルエージェント)も登場しています。

今週やるべきこと

  • 24GB カードをお持ちの方:Nemotron-3 Nano Omni 30B-A3B Q4_K_M をダウンロードしてください。画像と音声が埋め込まれたドキュメントを渡してみて、あなたのワークロードでオムニ対応が本当に機能するか確認しましょう。
  • 12GB カードをお持ちの方:デイリードライバーの候補として ZAYA1-8B Q4_K_M を試し、Qwen 3.6 9B の蒸留モデルと比較してみてください。
  • エージェント型コーディングスタック:Qwen 3.5 35B-A3B のベンチマーク枠に Poolside Laguna XS.2 を入れて再評価してみてください。
  • クラウド比較環境:「ローカル最良 vs クラウド最良」の評価スクリプトを管理している方は、クラウドのベースラインを Opus 4.7 ではなく GPT-5.5 Pro に更新してください。

次号では、コストカーブを静かに塗り替えている推論エンジンの波(MTP、DFlash、PAGED MoE)を取り上げます。

runlocal