anchor left anchor right

Mar 04 2026 AIニュース

Google、Gemini 3.1 Flash-Liteをプレビュー公開——Gemini 3シリーズ初の超低コストモデル

anchor left anchor right

📖 この記事で分かること

  • Gemini 3.1 Flash-Liteが2026年3月3日にプレビュー公開された
  • 入力$0.25/100万トークンと、Gemini 3系列で最安値の価格設定
  • 2.5 Flashより2.5倍高速、高スループット用途に最適化
  • Google AI StudioとVertex AIで即日テスト可能

💡 知っておきたい用語

  • Time to First Answer Token(TTFAT):AIが最初の文字を返すまでの時間。お店で注文してから料理が来るまでの”最初の一口”までの待ち時間にあたる。短いほどリアルタイム性が高い。

最終更新日: 2026年03月04日

Gemini 3.1 Flash-Liteとは何か

GoogleがGemini 3シリーズ初のFlash-Liteモデルを発表した。2026年3月3日にプレビュー公開されたGemini 3.1 Flash-Liteは、Gemini 3 Proをベースに高速・低コスト向けに最適化された軽量推論モデルで、大量処理や低レイテンシが求められるアプリケーション向けに設計されている。

主な仕様は以下のとおりだ。

  • モデルコード: gemini-3.1-flash-lite-preview
  • 入力価格: $0.25 / 100万トークン(テキスト・画像・動画)※音声入力のみ別料金($0.50/1M on Google AI Studio、$0.30/1M on Vertex AI)
  • 出力価格: $1.50 / 100万トークン
  • コンテキスト長: 最大100万トークン(入力)
  • 出力上限: 64Kトークン(65,536)
  • 対応モダリティ: テキスト・画像・音声・動画・PDF
  • 利用可能環境: Google AI Studio、Gemini API、Vertex AI

前世代との比較——何がどれだけ速くなったか

3.1 Flash-Liteの最大の訴求点はスピードとコスト効率だ。Artificial Analysisのベンチマークによると、2.5 Flash比でTime to First Answer Tokenが2.5倍速く出力速度は45%向上している。

品質面でも改善が見られ、推論・マルチモーダル理解ベンチマークでの成績は以下のとおり確認されている。

  • GPQA Diamond: 86.9%
  • MMMU Pro: 76.8%
  • Arena.ai Elo スコア: 1432

Vertex AIのドキュメントによれば、2.5 Flash-Liteや2.0 Flash-Liteとの比較で応答品質・命令追従・音声入力品質を含む主要能力領域での向上が図られており、2.5 Flashに相当するパフォーマンスを低コストで実現することを目標に開発されたとされている。

また、思考レベルを「minimal / low / medium / high」の4段階で制御できるThinkingレベル指定機能が新たに追加された。用途に応じて品質と速度のバランスを調整できる。

想定ユースケースと活用例

Gemini 3.1 Flash-Liteが最も力を発揮するのは、大量・高頻度・低レイテンシが求められる処理だ。Googleが公式ドキュメントで示している代表的なユースケースは以下のとおりだ。

  • 翻訳: チャットメッセージ・レビュー・サポートチケットの大規模翻訳
  • コンテンツモデレーション: 高頻度コンテンツの分類・審査
  • UIコード生成: 画面コンテキストに基づいたインターフェース自動生成
  • ドキュメント処理: 長尺PDFの低遅延サマリー生成
  • エージェントのルーティング: タスク複雑度を判定してFlashやProへ振り分けるゲートとしての活用

実際にGemini CLIのオープンソース実装では、Flash-Liteがタスクの複雑度を判定してFlashとProにルーティングするロールを担っているという事例が紹介されている。

バージョン命名の背景と注意点

注目すべき点として、GoogleはGemini 3.0 Flash-Liteをスキップして「3.1 Flash-Lite」という名称を採用した。バージョン体系として2.5 Flash-Liteから3.1へ直接飛んでおり、3.0に相当するFlash-Liteは存在しない。

また、同日にGemini 3 Pro Previewの廃止もアナウンスされた。Gemini 3 Pro Previewは2026年3月9日にシャットダウンされる予定で、開発者には短い移行期間しか与えられていない。コミュニティからは「通常の非推奨ポリシーが定める最低2週間の告知期間を満たしていない」という批判の声も上がっている点は留意が必要だ。

今後の注目点

現時点ではプレビュー版としての提供であり、安定版(GA)のリリース時期は未確認だ。Gemini 2.5 Flash-Liteが2025年6月のプレビュー公開から同年7月22日に安定版リリースされたことを考えると、数週間〜数カ月での安定版移行が見込まれる可能性はあるが、Googleからの正式発表はまだない。

Gemini 3シリーズはPro、Flash、そして今回のFlash-Liteと三層のラインナップが出そろいつつある。次の焦点は3.1 Pro Previewの動向と、安定版の提供スケジュールになるだろう。


よくある質問

Q: Gemini 3.1 Flash-Liteはいつから使えますか?

A: 2026年3月3日よりプレビュー版として公開されており、Gemini APIのGoogle AI StudioおよびVertex AIで即日利用可能です。モデルコード gemini-3.1-flash-lite-preview を指定することでアクセスできます。

Q: Gemini 2.5 Flash-Liteと何が違いますか?

A: Gemini 3.1 Flash-Liteは3 Proをベースに開発されており、2.5 Flash比で約2.5倍の速度向上と、出力速度45%増を実現しています。命令追従精度や音声入力品質も向上しているとされています。なお価格は2.5 Flash-Lite(入力$0.10/1M)より高い$0.25/1M設定となっています。

Q: 「Thinking」機能はどう使いますか?

A: thinking_level パラメータでminimal・low・medium・highの4段階を指定できます。デフォルトでは速度優先の設定になっており、より精度が求められる場面ではhighに切り替えることで品質と速度のトレードオフを調整できます。


まとめ

Gemini 3.1 Flash-Liteは、Gemini 3 Proの推論能力を継承しながら、コストと速度を大幅に改善した軽量モデルとして登場した。高スループット・低レイテンシが求められる大量処理ワークロードを持つ開発者にとって有力な選択肢となりそうだ。現時点ではプレビュー段階のため、本番導入を検討する場合は安定版リリースの情報をウォッチしておくことをお勧めしたい。


【用語解説】

  • Flash-Lite【フラッシュライト】: GoogleのGeminiモデル体系における最軽量・最低コスト層。Pro(高精度)→ Flash(バランス型)→ Flash-Lite(大量処理特化)の順で位置づけられる。
  • Thinking Level【シンキングレベル】: モデルが内部でどれだけ「考える」かを制御するパラメータ。高くするほど精度が上がるが、レイテンシとコストも増える。
  • Vertex AI【バーテックスエーアイ】: GoogleのエンタープライズAI開発・運用プラットフォーム。Geminiモデルを含む各種AIモデルをスケールで利用できるマネージドサービス。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:

anchor left anchor right
KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。