gemini-3-1-pro anchor left anchor right

Feb 20 2026

Google「Gemini 3.1 Pro」発表──推論性能が前世代の2倍超に

anchor left anchor right

📖 この記事で分かること

  • Googleが推論特化の新モデル「Gemini 3.1 Pro」を発表
  • ARC-AGI-2スコアが77.1%と前世代から2倍以上に向上
  • 開発者・企業・一般ユーザーの全方面に順次提供開始
  • 価格は据え置きで、性能だけが大幅アップ

💡 知っておきたい用語

  • ARC-AGI-2:AIが「初めて見る論理パズル」をどれだけ解けるかを測るテスト。暗記では通用しないため、AIの”本当の思考力”を測る指標として注目されています。

最終更新日: 2026年02月20日

Gemini 3.1 Proとは何か──Gemini初の「.1」アップデート

Googleは2026年2月19日(現地時間)、AIモデル「Gemini 3.1 Pro」をプレビュー版として発表しました。Geminiシリーズとしては初めての「.1」刻みのアップデートとなり、これまでの「.5」刻み(例:Gemini 2.5 Pro)とは異なる、短いサイクルでの改良リリースです。

Googleは公式ブログで、Gemini 3.1 Proを「コア推論における一歩前進」と位置づけています。前週に公開された「Gemini 3 Deep Think」のアップデートで実現した知能の向上を、より幅広いユーザーに届けることが狙いです。Gemini 3 Deep Thinkが科学・研究・エンジニアリング向けの高難度タスクに特化していたのに対し、3.1 Proは日常的なアプリケーションでもその推論能力を活用できるモデルとして設計されています。

現時点ではプレビュー版としての提供であり、Googleはユーザーからのフィードバックを反映しながら、エージェント型ワークフローの改善を進めたうえで、一般提供(GA)を予定しています。

ベンチマーク──16項目中13項目で首位を獲得

Gemini 3.1 Proは、Googleが公表した16のベンチマークのうち13項目でトップスコアを記録しています。特に際立つのがARC-AGI-2での成績です。

  • ARC-AGI-2(抽象論理推論): 77.1%(Gemini 3 Pro: 31.1%、Anthropic Opus 4.6: 68.8%、OpenAI GPT-5.2: 52.9%)
  • GPQA Diamond(博士レベル科学知識): 94.3%(Opus 4.6: 91.3%、GPT-5.2: 92.4%)
  • LiveCodeBench Pro(競技プログラミング): Elo 2887(Gemini 3 Pro: 2439、GPT-5.2: 2393)
  • SWE-Bench Verified(エージェント型コーディング): 80.6%(Opus 4.6: 80.8%とほぼ同等)
  • MMMLU(マルチモーダル理解): 92.6%
  • APEX-Agents(長期エージェントタスク): 33.5%(Gemini 3 Pro: 18.4%のほぼ2倍)
  • BrowseComp(ブラウジング能力): 85.9%
  • MCP Atlas(エージェント評価): 69.2%

一方、すべてで首位というわけではありません。Humanity’s Last Exam(ツール使用時)ではAnthropic Opus 4.6が53.1%でトップ(3.1 Proは51.4%)、Terminal-Bench 2.0のCodexハーネス評価ではOpenAI GPT-5.3-Codexが77.3%を記録(3.1 Proは68.5%)しています。また、マルチモーダル評価のMMU Proでは前世代のGemini 3 Proが81.0%と、3.1 Proの80.5%をわずかに上回るという逆転も見られます。

ベンチマークはあくまで特定条件下の指標であり、実用性と直結するとは限りません。ただし、推論タスクを中心にこれだけ幅広く高スコアを記録したことは、モデルの基礎的な知能が確実に向上していることを示唆しています。

提供範囲と価格──据え置き価格で性能だけ向上

Gemini 3.1 Proは、消費者・開発者・企業向けの幅広いプラットフォームで提供が開始されています。

利用可能なプラットフォーム

  • 一般ユーザー向け: Geminiアプリ、NotebookLM(Pro/Ultraプランユーザーが対象、利用上限が拡大)
  • 開発者向け(プレビュー): Gemini API(Google AI Studio経由)、Gemini CLI【シーエルアイ】、Google Antigravity(エージェント開発プラットフォーム)、Android Studio
  • 企業向け: Vertex AI、Gemini Enterprise
  • サードパーティ: GitHub Copilot、Visual Studio、Visual Studio Code

API料金(Gemini 3 Proから変更なし)

項目200Kトークン以下200Kトークン超
入力$2.00/100万トークン$4.00/100万トークン
出力$12.00/100万トークン$18.00/100万トークン

コンテキストキャッシュ【Context Caching】は$0.20〜$0.40/100万トークン(プロンプトサイズにより変動)、ストレージ料金は$4.50/100万トークン/時間です。Search Grounding(検索連携)は月5,000プロンプトまで無料、以降は1,000検索あたり$14が課金されます。

モデルのスペックとしては、コンテキストウィンドウ【Context Window】が最大100万トークン、出力は最大6万4,000トークンに対応しています。テキスト、画像、音声、動画のマルチモーダル処理にも引き続き対応しています。

価格が据え置きである点は、特に開発者にとって注目すべきポイントです。同じコストでより高い推論性能が得られるため、既存のGemini 3 Proユーザーにとっては実質的なアップグレードとなります。

AI競争の現在地と今後の注目点

Gemini 3.1 Proの発表は、AI業界における激しいモデル競争のなかで行われました。2025年11月にGemini 3 Proが登場した際もベンチマーク上位を席巻しましたが、その後AnthropicがOpus 4.5やOpus 4.6を、OpenAIがGPT-5.2をリリースし、首位は短期間で入れ替わりました。今回の3.1 Proは、わずか3カ月で再びGoogleがトップに返り咲く形です。

第三者機関のArtificial Analysisは、Gemini 3.1 Proを現時点で最も高性能なAIモデルと評価していると報じられています。ただし、OpenAIのGPT-5.3-Codexが一部のコーディングタスクで上回っていること、Anthropicのモデルがエキスパートタスクや人間的判断を問う評価で強みを見せていることを考えると、「総合1位」という表現は評価軸に依存します。

Googleが今回とくに力を入れているのは、エージェント型ワークフロー(AIが自律的に複数のステップを踏んで作業を遂行する能力)です。APEX-AgentsやMCP Atlasなどのエージェント系ベンチマークでの高スコアは、単なるチャット応答を超えた活用シーンへの布石と考えられます。

Googleの2025年Q4決算資料では、CEOのSundar Pichai氏がGemini APIの利用量が毎分100億トークン以上、Geminiアプリの月間アクティブユーザーが7億5,000万人以上に達したと述べています。モデル性能の向上と膨大なユーザー基盤の組み合わせが、今後のAI市場にどのような影響を与えるかが注目されます。

現時点ではプレビュー版のため、一般提供(GA)の正式な日程は発表されていません。Googleは「エージェント型ワークフローのさらなる改善を進めたうえで、近日中にGAを予定している」としています。


よくある質問

Q: Gemini 3.1 Proは無料で使えますか?

A: Geminiアプリでは、Google AI ProおよびUltraプランのユーザーに対して利用上限が引き上げられた形で提供されています。API経由での利用は入力$2.00/100万トークンからの従量課金制です。無料枠の詳細については、Google AI Studioの公式ページで確認してください。

Q: Gemini 3 Proからどのくらい性能が上がりましたか?

A: 最も象徴的な指標として、ARC-AGI-2ベンチマークのスコアが31.1%から77.1%へと2倍以上に向上しています。科学知識(GPQA Diamond)やコーディング(LiveCodeBench Pro)など、多くの評価項目でも改善が見られます。

Q: 現在使っているGemini 3 Proから自動で切り替わりますか?

A: Geminiアプリのユーザーには順次ロールアウトされる予定です。API利用者はGemini 3.1 Proを明示的に選択する必要があります。現時点ではプレビュー版のため、本番環境への導入はGA後に検討することが推奨されます。


まとめ

Gemini 3.1 Proは、Googleが初めて「.1」刻みでリリースした改良モデルであり、推論性能を中心に大幅な進化を遂げています。ARC-AGI-2で前世代比2倍超のスコアを記録し、Googleが公表した16ベンチマーク中13項目で首位を獲得しました。価格は据え置きのまま性能だけが向上しており、開発者・企業にとってはコストパフォーマンスの高いアップグレードとなります。ただし一部のコーディングタスクやエキスパート評価ではAnthropicやOpenAIのモデルが上回る領域もあり、用途に応じた選択が重要です。現在はプレビュー版での提供となっており、一般提供は近日中とされています。


【用語解説】

  • ARC-AGI-2【エーアールシー・エージーアイ・ツー】: AIが未知の論理パズルを解く能力を測定するベンチマーク。暗記やパターンマッチングでは解けない問題を出題するため、モデルの「真の推論力」を評価する指標として注目されている。
  • コンテキストウィンドウ【Context Window】: AIモデルが一度に処理できるテキストの長さの上限。数値が大きいほど、長い文書や複雑なやり取りを一度に扱える。Gemini 3.1 Proは最大100万トークンに対応。
  • エージェント型ワークフロー【Agentic Workflow】: AIが人間の指示を受けて、複数のステップを自律的に判断・実行する作業の流れ。たとえば、情報検索→分析→報告書作成といった一連のタスクをAIが自分で進める形態を指す。
  • プレビュー版【Preview】: 正式リリース(GA=一般提供)前のテスト段階で公開されるバージョン。ユーザーからのフィードバックをもとに改善が行われるため、仕様が変更される可能性がある。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:

anchor left anchor right
KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。