Gemini Embedding 2 - Google、初のマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューで公開 anchor left anchor right

Mar 11 2026 AIニュース

Gemini Embedding 2 – 公開 – Google初のマルチモーダル埋め込みモデル

anchor left anchor right

Gemini Embedding 2 は、Google DeepMindが2026年3月10日にパブリックプレビュー公開した初のネイティブマルチモーダル埋め込みモデルで、5つのメディアを統一空間で扱えます。

📖 この記事で分かること

  • テキスト・画像・動画・音声・文書を1つの空間に統合
  • 100言語以上に対応し、RAGや意味検索の精度が向上
  • MRL技術でベクトル次元を柔軟に調整できる
  • Gemini API・Vertex AIで今すぐ試せるプレビュー版が登場

💡 知っておきたい用語

  • エンベディング(Embedding):テキストや画像などの情報を数値の配列(ベクトル)に変換する技術。「意味が近いもの同士は数値も近くなる」性質を持ち、検索やAIの理解を助ける仕組み。

最終更新日: 2026年5月21日

Gemini Embedding 2 - Google、初のマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューで公開

Gemini Embedding 2とは何か

GoogleのAI部門であるGoogle DeepMindが2026年3月10日にリリースした、初のネイティブマルチモーダル埋め込みモデルです。テキスト・画像・動画・音声・PDFドキュメントという5つのメディアタイプを、単一の統一された埋め込み空間にマッピングするのが最大の特徴です。

従来のGoogleの埋め込みモデル(gemini-embedding-001)はテキストのみに対応していました。Gemini Embedding 2はこの制約を取り除き、異なるメディアタイプ同士を横断した検索や分類が可能になりました。たとえば「テキストで書いた質問から関連する動画クリップを検索する」といった操作が、単一のAPIリクエストで実現できます。現在はgemini-embedding-2-previewとして、Gemini APIおよびVertex AIでパブリックプレビュー提供中です。

対応モダリティと主な技術仕様

各モダリティに対応した入力制限と技術的な柔軟性が特徴です。

入力対応モダリティと上限

モダリティ 対応形式 上限
テキスト 最大8,192トークン
画像 PNG / JPEG 1リクエストあたり最大6枚
動画 MP4 / MOV 最大120秒
音声 MP3 / WAV 最大80秒
PDF文書 最大数ページ(プレビュー時点)

また、複数のモダリティを1つのリクエストに混在させた「インターリーブ入力」にも対応しています。たとえば、テキストと画像と音声をセットで送信し、それらの関係性を捉えた1つの埋め込みベクトルを得ることができます。

Matryoshka Representation Learning(MRL)の採用

Matryoshka Representation Learning(MRL【マトリョーシカ表現学習】)という技術を取り入れており、デフォルトの3,072次元から1,536次元・768次元へとベクトルを縮小しても、大幅な精度低下なく利用できます。ストレージコストや検索速度とのトレードオフを、用途に応じて柔軟に調整できる点が実用上の利点です。

さらに「カスタムタスク指示」機能として、task_typeパラメータでretrievalやclassificationなどを指定することで、特定の目的に最適化された埋め込みを生成することも可能です。

活用できるユースケースと業界への影響

マルチモーダル埋め込みの統一化によって、これまで複数のモデルと専用インデックスを組み合わせる必要があったパイプラインを簡素化できます。

具体的に効果が見込まれるユースケースとして以下が挙げられます:

  • RAG(検索拡張生成)の高度化: テキストと画像が混在したドキュメントをまとめてインデックス化し、精度の高い回答生成を実現
  • マルチモーダル意味検索: テキストクエリで画像・動画・音声を横断検索
  • 音声ナレッジベース: 会議録音をテキスト書き起こしなしで直接埋め込み、テキストで検索可能に
  • 感情分析・データクラスタリング: 100言語以上のテキストにまたがる多言語クラスタリング

Googleは公式ブログで、法律分野での活用事例として訴訟の証拠開示プロセスを挙げており、数百万件の記録にわたって精度と再現率が向上したと述べています。ただし、具体的な数値の詳細はソース上では確認できませんでした。

業界標準ベンチマーク(MTEB【エムティーイービー】)においても高いスコアを示していると報告されており、競合モデルと比較しても上位に位置するとされています。ただし具体的な数値の詳細は、公式一次情報からは確認できませんでした。

価格・移行時の注意点

料金体系

  • テキスト埋め込み:100万トークンあたり0.20ドル
  • バッチAPI利用時:通常料金の50%オフ(レイテンシを許容する大量処理向け)
  • 画像・音声・動画:Gemini API標準のメディアトークンレートに準拠

既存ユーザーへの重要注意

gemini-embedding-001(テキスト専用、一般提供中)とgemini-embedding-2-previewの埋め込み空間は互換性がありません。既存のベクトルデータベースをお持ちの場合、データセット全体の再埋め込みが必要になります。既存ベクトルを保持したままの移行パスは現時点では用意されていないため、本番環境で運用中のシステムへの導入前に十分な検証を行うことが推奨されます。

対応フレームワーク・ベクトルDB

LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Searchなど主要なエコシステムとのインテグレーションが確認されています。

今後の注目点

現時点でのステータスはパブリックプレビューであり、一般提供(GA)の時期は公式からはアナウンスされていません。動画・音声の入力時間上限や画像枚数の制約が実運用上のネックになるケースも考えられ、今後のアップデートでこれらが拡張されるかが注目点のひとつです。

また、テキスト専用のgemini-embedding-001は引き続き利用可能であるため、テキストのみのユースケースであれば既存モデルのまま運用を続ける選択肢もあります。


編集部の見方

「マルチモーダル × 統一空間」が意味するもの: 従来は画像用・音声用・動画用に別々の埋め込みモデルとインデックスを用意する必要があり、運用コストが高い領域でした。単一APIで5種のメディアを束ねられる仕様は、RAGや横断検索の設計コストを実務的に下げる更新です。

MRL による次元可変性が運用面で効く: 3,072 → 1,536 → 768 次元へ精度を保ったまま縮められるため、ストレージとレイテンシの最適点を後から調整できます。本番運用での容量計画を硬く決め打ちしなくて済む利点は大きいです。

誰に向く / 向かない: 既存のテキスト中心RAGを画像・音声・動画へ拡張したい開発者・SaaS事業者には移行検討の価値があります。一方、テキスト専用で十分な用途や既存ベクトル資産が大きい場合は、再埋め込みコストとプレビュー段階の安定性を踏まえ、GA待ちが現実解です。


よくある質問

Q: Gemini Embedding 2はいつから使えますか?

A: 2026年3月10日よりパブリックプレビューとして、Gemini APIおよびVertex AIで利用可能です。モデル名はgemini-embedding-2-previewです。

Q: 既存のテキスト埋め込みモデルから移行する場合、データの再処理は必要ですか?

A: はい、必要です。gemini-embedding-001とgemini-embedding-2-previewは埋め込み空間が互換性を持たないため、既存のベクトルデータを全件再埋め込みする必要があります。

Q: 音声や動画はどの形式・長さまで対応していますか?

A: 音声はMP3またはWAV形式で最大80秒、動画はMP4またはMOV形式で最大120秒に対応しています。これを超えるコンテンツは分割して処理する必要があります。


まとめ

Gemini Embedding 2は、テキスト・画像・動画・音声・PDFを単一の埋め込み空間に統合したGoogleの初のマルチモーダル埋め込みモデルです。100言語以上への対応、柔軟な次元調整(MRL)、主要フレームワークとの統合対応により、RAGや意味検索のパイプライン構築が大幅に簡素化される可能性があります。一方、既存埋め込みとの非互換性や入力制限(音声80秒、動画120秒など)は導入前に把握しておくべき制約です。現在はパブリックプレビュー段階であり、本番環境での採用判断はGA後の安定性確認後が無難でしょう。


【用語解説】

  • エンベディングモデル: テキストや画像などのデータを、意味的な近さを数値で表現したベクトルに変換するAIモデル。生成AIとは異なり、「理解・分類・検索」に特化している。
  • RAG【アール・エー・ジー】(Retrieval-Augmented Generation): AIが回答を生成する際に、外部データベースから関連情報を検索して参照する手法。ハルシネーション(事実誤認)の低減に効果的。
  • MRL【エム・アール・エル】(Matryoshka Representation Learning): ロシア人形「マトリョーシカ」のように情報を入れ子状に格納することで、ベクトルを再学習なしに任意の小さな次元に縮小できる表現学習技術。

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:


この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。

anchor left anchor right
KOJI TANEMURA

15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。