runlocal.cc
GPUを診断 →

Gemma 4 31B

Apache 2.0

Google のフラッグシップ dense 31B モデルで、256K コンテキストに対応しています。フロンティアに迫る品質を持ち、コードと推論においてオープンソース最高峰の性能を発揮します。Arena Elo ~1452。

提供元

Google

パラメータ

31B

コンテキスト

262.144K

リリース

2026-04-08

量子化別 VRAM 要件

量子化ディスク容量必要VRAM対応GPU
Q8_031 GB34 GB4 GPU
Q4_K_M17 GB19 GB9 GPU
Q4_015.5 GB17.5 GB9 GPU
Q2_K9.5 GB11 GB18 GPU

Ollama でインストール

ターミナルで実行:

ollama pull gemma4:31b

最低 VRAM 11GB が必要です。Ollama は以下からインストール: ollama.com

ベンチマークスコア

mmlu89%
humaneval82%

スコアは目安であり、量子化レベルにより変動します。

MTP(Multi-Token Prediction)

MTP ヘッド搭載モデル — llama.cpp 2026-05-16 以降、LM Studio、Lemonade で利用可能。

このモデルのコミュニティ実測値はまだ集計されていません。

Google ships MTP drafter weights on HuggingFace + Ollama v0.23.1; concrete community speedup numbers still emerging.

対応GPU (18)

HuggingFace

google/gemma-4-31b-it

HFで見る →