Gemini 3.1 Flash-Lite - Google、Gemini 3.1 Flash-Liteをプレビュー公開——Gemini 3シリーズ初の超低コストモデル

Mar 04 2026 AIニュース

Google、Gemini 3.1 Flash-Liteをプレビュー公開——Gemini 3シリーズ初の超低コストモデル

#トレンドトピック

Gemini 3.1 Flash-Lite は、Googleが2026年3月3日にプレビュー公開したGemini 3シリーズ初の軽量モデルで、高スループット用途向けに最適化された超低コストの推論モデルです。

📖 この記事で分かること

Gemini 3.1 Flash-Liteが2026年3月3日にプレビュー公開された
入力$0.25/100万トークンと、Gemini 3系列で最安値の価格設定
2.5 Flashより2.5倍高速、高スループット用途に最適化
Google AI StudioとVertex AIで即日テスト可能

💡 知っておきたい用語

Time to First Answer Token（TTFAT）：AIが最初の文字を返すまでの時間。お店で注文してから料理が来るまでの”最初の一口”までの待ち時間にあたる。短いほどリアルタイム性が高い。

最終更新日: 2026年5月21日

Contents

Gemini 3.1 Flash-Liteとは何か
前世代との比較——何がどれだけ速くなったか
想定ユースケースと活用例
バージョン命名の背景と注意点
今後の注目点
編集部の見方

Gemini 3.1 Flash-Liteとは何か

GoogleがGemini 3シリーズ初のFlash-Liteモデルを発表した。2026年3月3日にプレビュー公開されたGemini 3.1 Flash-Liteは、Gemini 3 Proをベースに高速・低コスト向けに最適化された軽量推論モデルで、大量処理や低レイテンシが求められるアプリケーション向けに設計されている。

主な仕様は以下のとおりだ。

モデルコード: gemini-3.1-flash-lite-preview
入力価格: $0.25 / 100万トークン（テキスト・画像・動画）※音声入力のみ別料金（$0.50/1M on Google AI Studio、$0.30/1M on Vertex AI）
出力価格: $1.50 / 100万トークン
コンテキスト長: 最大100万トークン（入力）
出力上限: 64Kトークン（65,536）
対応モダリティ: テキスト・画像・音声・動画・PDF
利用可能環境: Google AI Studio、Gemini API、Vertex AI

前世代との比較——何がどれだけ速くなったか

3.1 Flash-Liteの最大の訴求点はスピードとコスト効率だ。Artificial Analysisのベンチマークによると、2.5 Flash比でTime to First Answer Tokenが2.5倍速く、出力速度は45%向上している。

品質面でも改善が見られ、推論・マルチモーダル理解ベンチマークでの成績は以下のとおり確認されている。

GPQA Diamond: 86.9%
MMMU Pro: 76.8%
Arena.ai Elo スコア: 1432

Vertex AIのドキュメントによれば、2.5 Flash-Liteや2.0 Flash-Liteとの比較で応答品質・命令追従・音声入力品質を含む主要能力領域での向上が図られており、2.5 Flashに相当するパフォーマンスを低コストで実現することを目標に開発されたとされている。

また、思考レベルを「minimal / low / medium / high」の4段階で制御できるThinkingレベル指定機能が新たに追加された。用途に応じて品質と速度のバランスを調整できる。

想定ユースケースと活用例

Gemini 3.1 Flash-Liteが最も力を発揮するのは、大量・高頻度・低レイテンシが求められる処理だ。Googleが公式ドキュメントで示している代表的なユースケースは以下のとおりだ。

翻訳: チャットメッセージ・レビュー・サポートチケットの大規模翻訳
コンテンツモデレーション: 高頻度コンテンツの分類・審査
UIコード生成: 画面コンテキストに基づいたインターフェース自動生成
ドキュメント処理: 長尺PDFの低遅延サマリー生成
エージェントのルーティング: タスク複雑度を判定してFlashやProへ振り分けるゲートとしての活用

実際にGemini CLIのオープンソース実装では、Flash-Liteがタスクの複雑度を判定してFlashとProにルーティングするロールを担っているという事例が紹介されている。

バージョン命名の背景と注意点

注目すべき点として、GoogleはGemini 3.0 Flash-Liteをスキップして「3.1 Flash-Lite」という名称を採用した。バージョン体系として2.5 Flash-Liteから3.1へ直接飛んでおり、3.0に相当するFlash-Liteは存在しない。

また、同日にGemini 3 Pro Previewの廃止もアナウンスされた。Gemini 3 Pro Previewは2026年3月9日にシャットダウンされる予定で、開発者には短い移行期間しか与えられていない。コミュニティからは「通常の非推奨ポリシーが定める最低2週間の告知期間を満たしていない」という批判の声も上がっている点は留意が必要だ。

今後の注目点

現時点ではプレビュー版としての提供であり、安定版（GA）のリリース時期は未確認だ。Gemini 2.5 Flash-Liteが2025年6月のプレビュー公開から同年7月22日に安定版リリースされたことを考えると、数週間〜数カ月での安定版移行が見込まれる可能性はあるが、Googleからの正式発表はまだない。

Gemini 3シリーズはPro、Flash、そして今回のFlash-Liteと三層のラインナップが出そろいつつある。次の焦点は3.1 Pro Previewの動向と、安定版の提供スケジュールになるだろう。

編集部の見方

「Lite」だが従来 Flash 相当という位置づけ: 公式が「2.5 Flash 相当のパフォーマンスを低コストで」と打ち出している通り、命名は Lite でも前世代のフラグシップ的中堅モデル相当の出力品質を狙っている。GPQA Diamond 86.9% / MMMU Pro 76.8% は単なる軽量モデルの数値ではなく、コスト最適化を進めても品質が落ちにくい設計になっている。

エージェントのルーティング層として最も効くポジション: 1 リクエスト$0.25/M というコスト感は、Flash-Lite を「入口の判定モデル」に置く運用に向いている。Gemini CLI の実装例にあるように、Flash-Lite で複雑度を判定して、必要なときだけ Flash / Pro に渡す構成は、月間トークンコストを大きく圧縮できる。

Pro Preview の廃止スケジュールがガバナンス上のリスク: 3 月 3 日告知 → 3 月 9 日シャットダウンは、本番運用しているチームにとっては危険な短さだ。Gemini API を業務に組み込む際は、モデルバージョンを直接コードに埋め込まず、設定ファイルで切替できる構成にしておく必要がある。向く読者: 大量翻訳・モデレーション・ドキュメント要約のように、毎月数千万〜数億トークンを処理するワークロードを持つ開発者。逆に、複雑な推論や創造的タスク中心のユースケースでは Pro / Sonnet 系の方が向く。

よくある質問

Q: Gemini 3.1 Flash-Liteはいつから使えますか？

A: 2026年3月3日よりプレビュー版として公開されており、Gemini APIのGoogle AI StudioおよびVertex AIで即日利用可能です。モデルコード gemini-3.1-flash-lite-preview を指定することでアクセスできます。

Q: Gemini 2.5 Flash-Liteと何が違いますか？

A: Gemini 3.1 Flash-Liteは3 Proをベースに開発されており、2.5 Flash比で約2.5倍の速度向上と、出力速度45%増を実現しています。命令追従精度や音声入力品質も向上しているとされています。なお価格は2.5 Flash-Lite（入力$0.10/1M）より高い$0.25/1M設定となっています。

Q: 「Thinking」機能はどう使いますか？

A: thinking_level パラメータでminimal・low・medium・highの4段階を指定できます。デフォルトでは速度優先の設定になっており、より精度が求められる場面ではhighに切り替えることで品質と速度のトレードオフを調整できます。

まとめ

Gemini 3.1 Flash-Liteは、Gemini 3 Proの推論能力を継承しながら、コストと速度を大幅に改善した軽量モデルとして登場した。高スループット・低レイテンシが求められる大量処理ワークロードを持つ開発者にとって有力な選択肢となりそうだ。現時点ではプレビュー段階のため、本番導入を検討する場合は安定版リリースの情報をウォッチしておくことをお勧めしたい。

【用語解説】

Flash-Lite【フラッシュライト】: GoogleのGeminiモデル体系における最軽量・最低コスト層。Pro（高精度）→ Flash（バランス型）→ Flash-Lite（大量処理特化）の順で位置づけられる。
Thinking Level【シンキングレベル】: モデルが内部でどれだけ「考える」かを制御するパラメータ。高くするほど精度が上がるが、レイテンシとコストも増える。
Vertex AI【バーテックスエーアイ】: GoogleのエンタープライズAI開発・運用プラットフォーム。Geminiモデルを含む各種AIモデルをスケールで利用できるマネージドサービス。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。

引用元:

[1] Google Blog – Gemini 3.1 Flash-Lite: Built for intelligence at scale – https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
[2] Google AI for Developers – Gemini 3.1 Flash-Lite Preview – https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview
[3] Google Cloud Documentation – Gemini 3.1 Flash-Lite on Vertex AI – https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-flash-lite
[4] DeepMind – Gemini 3.1 Flash-Lite Model Card – https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
[5] Awesome Agents – Google Launches Gemini 3.1 Flash-Lite as Gemini 3 Pro Dies – https://awesomeagents.ai/news/gemini-3-1-flash-lite-preview-launch/

この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。

Claude Codeで広告監査を自動化する無料スキル「Claude Ads」が登場、190項目を5分以内にチェック

Claude Codeにボイスモード - Claude Codeにボイスモード登場——話しかけてコーディングできる時代へ

KOJI TANEMURA

15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。

Google、Gemini 3.1 Flash-Liteをプレビュー公開——Gemini 3シリーズ初の超低コストモデル

Gemini 3.1 Flash-Liteとは何か

前世代との比較——何がどれだけ速くなったか

想定ユースケースと活用例

バージョン命名の背景と注意点

今後の注目点

編集部の見方

よくある質問

まとめ

【用語解説】

関連

Claude Codeで広告監査を自動化する無料スキル「Claude Ads」が登場、190項目を5分以内にチェック

Claude Codeにボイスモード登場——話しかけてコーディングできる時代へ

先週のAI公式発表を5分でチェック AIニュースまとめ 2026-06-01〜06-07

ChatGPTのメモリ新基盤「Dreaming」公開、無料層へ順次拡大

先週のAI公式発表を5分でチェック AIニュースまとめ 2026-05-25〜05-31

Antigravity と Antigravity IDE の違い。2.0 でブランドと製品が分離

Claude初心者必見！やらないと後悔する初期設定【2026年最新版】

Gemini初心者必見！やらないと後悔する初期設定5選【2026年最新版】

ChatGPT初心者必見！やらないと後悔する初期設定３選【2026年最新版】

OpenAI Codex の Build iOS Apps プラグイン。SwiftUI 開発をエージェントで回す

Antigravity と Antigravity IDE の違い。2.0 でブランドと製品が分離

Google、Gemini 3.1 Flash-Liteをプレビュー公開——Gemini 3シリーズ初の超低コストモデル

Gemini 3.1 Flash-Liteとは何か

前世代との比較——何がどれだけ速くなったか

想定ユースケースと活用例

バージョン命名の背景と注意点

今後の注目点

編集部の見方

よくある質問

まとめ

【用語解説】

関連

Claude Codeで広告監査を自動化する無料スキル「Claude Ads」が登場、190項目を5分以内にチェック

Claude Codeにボイスモード登場——話しかけてコーディングできる時代へ

先週のAI公式発表を5分でチェック AIニュースまとめ 2026-06-01〜06-07

ChatGPTのメモリ新基盤「Dreaming」公開、無料層へ順次拡大

先週のAI公式発表を5分でチェック AIニュースまとめ 2026-05-25〜05-31

Antigravity と Antigravity IDE の違い。2.0 でブランドと製品が分離

Claude初心者必見！やらないと後悔する初期設定【2026年 最新版】

Gemini初心者必見！やらないと後悔する初期設定5選【2026年最新版】

ChatGPT初心者必見！やらないと後悔する初期設定３選【2026年 最新版】

OpenAI Codex の Build iOS Apps プラグイン。SwiftUI 開発をエージェントで回す

Antigravity と Antigravity IDE の違い。2.0 でブランドと製品が分離

Claude初心者必見！やらないと後悔する初期設定【2026年最新版】

ChatGPT初心者必見！やらないと後悔する初期設定３選【2026年最新版】