gemini-embedding-2 anchor left anchor right

Mar 11 2026 AIニュース

Google、初のマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューで公開

anchor left anchor right

📖 この記事で分かること

  • テキスト・画像・動画・音声・文書を1つの空間に統合
  • 100言語以上に対応し、RAGや意味検索の精度が向上
  • MRL技術でベクトル次元を柔軟に調整できる
  • Gemini API・Vertex AIで今すぐ試せるプレビュー版が登場

💡 知っておきたい用語

  • エンベディング(Embedding):テキストや画像などの情報を数値の配列(ベクトル)に変換する技術。「意味が近いもの同士は数値も近くなる」性質を持ち、検索やAIの理解を助ける仕組み。

最終更新日: 2026年03月11日

Gemini Embedding 2とは何か

GoogleのAI部門であるGoogle DeepMindが2026年3月10日にリリースした、初のネイティブマルチモーダル埋め込みモデルです。テキスト・画像・動画・音声・PDFドキュメントという5つのメディアタイプを、単一の統一された埋め込み空間にマッピングするのが最大の特徴です。

従来のGoogleの埋め込みモデル(gemini-embedding-001)はテキストのみに対応していました。Gemini Embedding 2はこの制約を取り除き、異なるメディアタイプ同士を横断した検索や分類が可能になりました。たとえば「テキストで書いた質問から関連する動画クリップを検索する」といった操作が、単一のAPIリクエストで実現できます。現在はgemini-embedding-2-previewとして、Gemini APIおよびVertex AIでパブリックプレビュー提供中です。

対応モダリティと主な技術仕様

各モダリティに対応した入力制限と技術的な柔軟性が特徴です。

入力対応モダリティと上限

モダリティ対応形式上限
テキスト最大8,192トークン
画像PNG / JPEG1リクエストあたり最大6枚
動画MP4 / MOV最大120秒
音声MP3 / WAV最大80秒
PDF文書最大数ページ(プレビュー時点)

また、複数のモダリティを1つのリクエストに混在させた「インターリーブ入力」にも対応しています。たとえば、テキストと画像と音声をセットで送信し、それらの関係性を捉えた1つの埋め込みベクトルを得ることができます。

Matryoshka Representation Learning(MRL)の採用

Matryoshka Representation Learning(MRL【マトリョーシカ表現学習】)という技術を取り入れており、デフォルトの3,072次元から1,536次元・768次元へとベクトルを縮小しても、大幅な精度低下なく利用できます。ストレージコストや検索速度とのトレードオフを、用途に応じて柔軟に調整できる点が実用上の利点です。

さらに「カスタムタスク指示」機能として、task_typeパラメータでretrievalclassificationなどを指定することで、特定の目的に最適化された埋め込みを生成することも可能です。

活用できるユースケースと業界への影響

マルチモーダル埋め込みの統一化によって、これまで複数のモデルと専用インデックスを組み合わせる必要があったパイプラインを簡素化できます。

具体的に効果が見込まれるユースケースとして以下が挙げられます:

  • RAG(検索拡張生成)の高度化: テキストと画像が混在したドキュメントをまとめてインデックス化し、精度の高い回答生成を実現
  • マルチモーダル意味検索: テキストクエリで画像・動画・音声を横断検索
  • 音声ナレッジベース: 会議録音をテキスト書き起こしなしで直接埋め込み、テキストで検索可能に
  • 感情分析・データクラスタリング: 100言語以上のテキストにまたがる多言語クラスタリング

Googleは公式ブログで、法律分野での活用事例として訴訟の証拠開示プロセスを挙げており、数百万件の記録にわたって精度と再現率が向上したと述べています。ただし、具体的な数値の詳細はソース上では確認できませんでした。

業界標準ベンチマーク(MTEB【エムティーイービー】)においても高いスコアを示していると報告されており、競合モデルと比較しても上位に位置するとされています。ただし具体的な数値の詳細は、公式一次情報からは確認できませんでした。

価格・移行時の注意点

料金体系

  • テキスト埋め込み:100万トークンあたり0.20ドル
  • バッチAPI利用時:通常料金の50%オフ(レイテンシを許容する大量処理向け)
  • 画像・音声・動画:Gemini API標準のメディアトークンレートに準拠

既存ユーザーへの重要注意

gemini-embedding-001(テキスト専用、一般提供中)とgemini-embedding-2-previewの埋め込み空間は互換性がありません。既存のベクトルデータベースをお持ちの場合、データセット全体の再埋め込みが必要になります。既存ベクトルを保持したままの移行パスは現時点では用意されていないため、本番環境で運用中のシステムへの導入前に十分な検証を行うことが推奨されます。

対応フレームワーク・ベクトルDB

LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Searchなど主要なエコシステムとのインテグレーションが確認されています。

今後の注目点

現時点でのステータスはパブリックプレビューであり、一般提供(GA)の時期は公式からはアナウンスされていません。動画・音声の入力時間上限や画像枚数の制約が実運用上のネックになるケースも考えられ、今後のアップデートでこれらが拡張されるかが注目点のひとつです。

また、テキスト専用のgemini-embedding-001は引き続き利用可能であるため、テキストのみのユースケースであれば既存モデルのまま運用を続ける選択肢もあります。


よくある質問

Q: Gemini Embedding 2はいつから使えますか?

A: 2026年3月10日よりパブリックプレビューとして、Gemini APIおよびVertex AIで利用可能です。モデル名はgemini-embedding-2-previewです。

Q: 既存のテキスト埋め込みモデルから移行する場合、データの再処理は必要ですか?

A: はい、必要です。gemini-embedding-001gemini-embedding-2-previewは埋め込み空間が互換性を持たないため、既存のベクトルデータを全件再埋め込みする必要があります。

Q: 音声や動画はどの形式・長さまで対応していますか?

A: 音声はMP3またはWAV形式で最大80秒、動画はMP4またはMOV形式で最大120秒に対応しています。これを超えるコンテンツは分割して処理する必要があります。


まとめ

Gemini Embedding 2は、テキスト・画像・動画・音声・PDFを単一の埋め込み空間に統合したGoogleの初のマルチモーダル埋め込みモデルです。100言語以上への対応、柔軟な次元調整(MRL)、主要フレームワークとの統合対応により、RAGや意味検索のパイプライン構築が大幅に簡素化される可能性があります。一方、既存埋め込みとの非互換性や入力制限(音声80秒、動画120秒など)は導入前に把握しておくべき制約です。現在はパブリックプレビュー段階であり、本番環境での採用判断はGA後の安定性確認後が無難でしょう。


【用語解説】

  • エンベディングモデル: テキストや画像などのデータを、意味的な近さを数値で表現したベクトルに変換するAIモデル。生成AIとは異なり、「理解・分類・検索」に特化している。
  • RAG【アール・エー・ジー】(Retrieval-Augmented Generation): AIが回答を生成する際に、外部データベースから関連情報を検索して参照する手法。ハルシネーション(事実誤認)の低減に効果的。
  • MRL【エム・アール・エル】(Matryoshka Representation Learning): ロシア人形「マトリョーシカ」のように情報を入れ子状に格納することで、ベクトルを再学習なしに任意の小さな次元に縮小できる表現学習技術。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:

anchor left anchor right
KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。