Gemini 3.1 Flash Live - GoogleがGemini 3.1 Flash Liveを発表——最高品質の音声モデルが90言語以上に対応 anchor left anchor right

Mar 27 2026 AIニュース

Gemini 3.1 Flash Live – 90 言語超対応の最高品質音声モデル

anchor left anchor right

Gemini 3.1 Flash Live は、Google が 2026 年 3 月 26 日にプレビュー公開した、低遅延と高品質音声を特徴とする最高品質クラスの音声・ボイスモデルです。

📖 この記事で分かること

  • Gemini 3.1 Flash Liveが2026年3月26日にプレビュー公開された
  • 低遅延・高品質音声で会話の自然さが大幅に向上している
  • 90言語以上に対応しSearch Liveが200カ国以上に展開される
  • 開発者向けにGemini Live APIとAI Studioから利用可能

💡 知っておきたい用語

  • Live API【ライブ エーピーアイ】:音声・映像・テキストのストリームをリアルタイムで処理し、即座に音声応答を返すAPI。電話中の通話のようにAIと双方向でやり取りできる仕組み。

最終更新日: 2026年5月21日

Gemini 3.1 Flash Live - GoogleがGemini 3.1 Flash Liveを発表——最高品質の音声モデルが90言語以上に対応

Gemini 3.1 Flash Liveとは何か

GoogleがGemini 3.1 Flash Liveを、同社の「現時点で最高品質の音声・ボイスモデル」として2026年3月26日に発表しました。開発者向けにはGemini Live APIを通じてGoogle AI Studioでプレビュー利用が可能です。

前世代の2.5 Flash Native Audioモデルと比較して低遅延を実現しており、より自然な対話体験に特化した設計となっています。

主要な改善点

Gemini 3.1 Flash Liveの主な強化内容は以下のとおりです。

  • 音響認識の向上:ピッチやペースといった音響的なニュアンスをより精度高く検出できるようになりました
  • バックグラウンドノイズのフィルタリング:交通音やテレビの音など、環境ノイズから関連音声を識別する精度が向上しています
  • ツール連携の強化:外部ツールのトリガーと情報提供の精度が大幅に改善されました
  • 複雑な指示への追従:複雑なシステム指示への準拠精度が大きく向上しています

ベンチマーク面では、マルチステップの関数呼び出しを測定するComplexFuncBench Audioで90.8%のスコアを記録し、前モデルを上回っています。また、Scale AIのAudio MultiChallengeでは「thinking」オン時に36.1%を達成しています。

なお、プレビュー段階では「プロアクティブオーディオ」と「アフェクティブダイアログ」の2機能はまだサポートされていません。

Gemini LiveとSearch Liveへの展開

Gemini 3.1 Flash Liveはコンシューマー向けサービスにも即座に反映されています。

Gemini Liveでは、前モデルと比較してレスポンスが速くなり、会話のスレッドを2倍長く追えるようになりました。これにより長時間のブレインストーミングでも会話の流れが維持されます。また、回答の長さやトーンを状況に応じてダイナミックに調整する機能も加わっています。

Search Liveは、AIモードが利用可能な200カ国以上に展開されます。マイクとカメラへのアクセスを許可することで、目の前の対象についてGeminiと双方向でやり取りができます。対応言語は90言語以上です。

開発者・企業向けの提供方法

開発者はGemini Live APIとGoogle AI StudioからGemini 3.1 Flash Liveのプレビューを利用できます。エンタープライズ向けには「Gemini Enterprise for Customer Experience」として提供されており、VerizonやThe Home Depotがすでに自社ワークフローに導入して効果を確認していると報告されています。

モデル文字列はgemini-3.1-flash-live-previewに変更され、thinkingBudgetの代わりにthinkingLevelパラメータ(minimal / low / medium / high)を使用する仕様変更が加えられています。デフォルトは最低遅延を優先するminimalに設定されています。

安全性への配慮として、生成されたすべての音声にはAI生成を検出可能なSynthIDウォーターマーキングが組み込まれています。


編集部の見方

遅延・自然さ最優先の設計: デフォルトthinkingLevel=minimalという設定からも分かるとおり、知能を尽くす方向ではなく「遅延を切り詰めて自然に会話する」ことに振り切ったモデル位置づけです。コールセンター・ボイスエージェント用途に最適化されています

ベンチマーク値の読み方: ComplexFuncBench Audio 90.8%は実用域、Audio MultiChallenge 36.1%は「複雑指示には課題が残る」レンジ。ユースケース選定の判断材料になります

既存パラメータからの破壊的変更: thinkingBudgetthinkingLevel、無効化が必要な機能フラグなど、移行時のコード書き換えが発生します。本番投入前に互換確認が必須です


よくある質問

Q: Gemini 3.1 Flash Liveは無料で使えますか?

A: 2026年3月26日時点では開発者向けにGoogle AI Studioのプレビューとして利用可能です。一般向けGemini LiveおよびSearch Live経由でも体験できますが、APIの料金体系については公式ドキュメントをご確認ください。

Q: 前のモデル(Gemini 2.5 Flash Native Audio)からの移行方法は?

A: モデル文字列をgemini-2.5-flash-native-audio-preview-12-2025からgemini-3.1-flash-live-previewに更新し、thinkingBudgetをthinkingLevelパラメータに変更する必要があります。プロアクティブオーディオとアフェクティブダイアログの設定はプレビュー段階では無効化が必要です。

Q: 日本語には対応していますか?

A: 公式発表によれば90言語以上のリアルタイム多言語会話に対応しており、日本語も対応言語に含まれると考えられます。ただし、日本語での具体的な性能水準については引き続き公式情報をご確認ください。


まとめ

GoogleはGemini 3.1 Flash Liveを2026年3月26日に発表し、音声AI分野での自然さと精度を大きく前進させました。低遅延・高品質なリアルタイム音声処理と90言語以上への対応は、開発者から一般ユーザーまで幅広い影響をもたらします。Search Liveの200カ国以上への展開も同時に発表され、Googleの音声AIエコシステムが一段と広がっています。


【用語解説】

  • Gemini Live API【ジェミニ ライブ エーピーアイ】: 音声・映像・テキストのストリームをリアルタイムに処理し、低遅延の双方向会話を実現するGoogleのAPI。
  • SynthID【シンス アイディー】: Googleが開発した音声・画像などのAI生成コンテンツに埋め込まれる透かし(ウォーターマーク)技術。人間の耳や目には知覚されないが検出ツールで確認できる。
  • ComplexFuncBench【コンプレックス ファンク ベンチ】: 複数ステップにわたる関数呼び出しや制約条件を含む複雑なタスクで音声AIモデルの性能を評価するベンチマーク。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:


この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。

anchor left anchor right
KOJI TANEMURA

15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。

人気の記事

anchor left anchor left

おすすめの記事

anchor left anchor left

categories

anchor left anchor left

tags

anchor left anchor left