Issue #52026年5月8日

Omni-modal locals land, GPT-5.5 resets the frontier

Nemotron-3 Nano Omni puts four modalities on a 24GB card. OpenAI ships GPT-5.5 to everyone. Xiaomi enters the open-weight flagship tier.

Issue #4 から2週間が経ちました。クラウドフロンティアは動き（GPT-5.5、Grok 4.3）、そして静かに、しかしより重要な動きとして、ローカルフロンティアが30Bクラスのフットプリントでネイティブ4モダリティのサポートを獲得しました。

リリース情報（4月25日〜5月8日）

モデル	プロバイダー	パラメータ数	ローカル対応	特徴
Nemotron-3 Nano Omni 30B-A3B	NVIDIA	30B/3.5B Mamba-MoE	✓	テキスト・画像・動画・音声のネイティブ対応、256K〜1M コンテキスト
Poolside Laguna XS.2	Poolside AI	33B/3B MoE	✓	Apache-2.0、エージェント型コーディング向け
Zyphra ZAYA1-8B	Zyphra AI	8B MoE	✓	AMDシリコン上で学習、12GB環境に最適
Mimo v2.5	Xiaomi	310B/15B MoE	Cloud	Xiaomi初のオープンフラッグシップ、llama.cpp PRをリリース初日にマージ
GPT-5.5 / Pro	OpenAI	—	Cloud	新たなフロンティアの基準点、ゲーデルレベルの推論能力
Grok 4.3	SpaceXAI	—	Cloud	xAI → SpaceXAI へのリブランドと同時リリース

モデルディレクトリには掲載していませんが、注目すべき情報もあります。NVIDIAの Gemma-4-26B-A4B-NVFP4 クオント（RTX 5090 1枚で動作、VRAM の80%使用時に50kコンテキスト対応）、Googleの Gemma 4 MTP ドラフトモデル（スペキュラティブデコーディング用、Ollama v0.23.1 でリリース初日対応）、そしてOpenAIの Privacy Filter（150M パラメータ、Apache-2.0 ライセンスのPIIスクラバー）などがあります。

ローカルの注目モデル：Nemotron-3 Nano Omni 30B-A3B

NVIDIAが、総パラメータ30B・アクティブパラメータ3.5Bのハイブリッドモデルをリリースしました（Mamba-2 + MoE + Attention）。このモデルはテキスト・画像・動画・音声をネイティブに処理でき、256K（最大1M）のコンテキストに対応しています。同規模のモデルの中で、MMLongBench-Doc、OCRBenchV2、VoiceBenchのトップを記録しています。Mambaレイヤーにより、同サイズのアテンションモデルと比較して約4倍の計算効率を実現しています。

24GB の GPU カードをお持ちなら、今すぐ試すべき新しい「面白いモデル」です。注目すべき3つの特性を紹介します：

アクティブパラメータのフットプリント — アクティブパラメータが3.5Bであるため、トークン生成コストは30Bの密なモデルではなく、9Bの密なモデルに近い水準になります。
モダリティのカバレッジ — これまでのオムニモデルのほとんどは、クローズドソース（Gemini、GPT-4o）か、部分的な対応（ビジョンのみ）でした。このモデルは真の意味で4モダリティ対応のオープンウェイト・商用利用可能なモデルです。
配布形態 — HuggingFace でBF16形式を公開、Unsloth GGUF もリリース初日から対応、ウェイトをダウンロードする前にOpenRouterの無料ティアで評価できます。

同じ期間のおすすめモデル：

Poolside Laguna XS.2 — Apache-2.0ライセンス、33B/A3B、エージェント型コーディングに特化。Qwen 3.5 35B-A3B とほぼ同等のベンチマーク結果を出しながら、完全なオープンウェイトを維持しています。
Zyphra ZAYA1-8B — AMD GPU上で学習されたコンパクトな推論チューニング済みMoE。パラメータあたりの性能を最大化しており、12GB カードでの Q4 動作も問題ありません。

クラウド動向：GPT-5.5 時代の幕開け

OpenAI は GPT-5.5（5月6日）をリリースし、GPT-5.5 Instant を無料ティアのChatGPTにも展開しました（5月7日。GPT-5.3 Instant と比較して、重要なプロンプトでのハルシネーションが約52.5%減少したと報告されています）。また、新たな深い推論のアンカーモデルとして GPT-5.5 Pro もリリースしました。xAI は同週に SpaceXAI へリブランドし、Grok 4.3 をリリースしました。バックグラウンドでは、Anthropic と SpaceXAI が Colossus1 コンピュート契約を締結しました。

ローカルAIのニュースレターでもこれらの動向に触れる価値があります。なぜなら、目標となる水準そのものが変化するからです。ローカルで動かせるモデルとフロンティアモデルとの能力差は、純粋な知性という観点では広がりました。しかし、コストあたりのスループットの差は着実に縮まっており、この点については Issue #6 で詳しく取り上げる予定です。

Xiaomのひっそりとした参入

GPT-5.5 の話題に隠れがちですが、Mimo v2.5 はオープンソース界隈における重要な出来事です。アクティブパラメータ15Bの310B スパース MoE モデルで、完全なマルチモーダル対応、llama.cpp の PR #22493 もリリース初日にマージされました。現時点ではクラスター環境（合計200GB以上のVRAM）がないとローカル実行は難しいですが、この動きが持つ意味は大きいです。主要な家電メーカーが、ペイウォールなしで完全なオープンマルチモーダルフラッグシップモデルを公開したのです。

中国勢からの注目情報として、Doubao-Seed-2.0-lite（ByteDance製、オムニモーダル）と SenseNova 6.7 Flash-Lite（SenseTime製、密なウェブ・ドキュメントレイアウトを直接解析できるマルチモーダルエージェント）も登場しています。

今週やるべきこと

24GB カードをお持ちの方：Nemotron-3 Nano Omni 30B-A3B Q4_K_M をダウンロードしてください。画像と音声が埋め込まれたドキュメントを渡してみて、あなたのワークロードでオムニ対応が本当に機能するか確認しましょう。
12GB カードをお持ちの方：デイリードライバーの候補として ZAYA1-8B Q4_K_M を試し、Qwen 3.6 9B の蒸留モデルと比較してみてください。
エージェント型コーディングスタック：Qwen 3.5 35B-A3B のベンチマーク枠に Poolside Laguna XS.2 を入れて再評価してみてください。
クラウド比較環境：「ローカル最良 vs クラウド最良」の評価スクリプトを管理している方は、クラウドのベースラインを Opus 4.7 ではなく GPT-5.5 Pro に更新してください。

次号では、コストカーブを静かに塗り替えている推論エンジンの波（MTP、DFlash、PAGED MoE）を取り上げます。

— runlocal

← 全ての記事