meta-ai-sam-audio

Meta、音声編集を変える新AI「SAM Audio」公開!クリックだけで音を分離

2025年12月22日

📖 この記事で分かること
・動画や音声から特定の音だけを簡単に取り出せる新技術が登場
・テキスト入力、クリック、時間指定の3つの方法で誰でも使える
・音楽制作からポッドキャスト、映画制作まで幅広く活用可能
・無料で試せて、開発者向けにもオープンソース公開中

💡 知っておきたい用語
音声分離:混ざった音声から特定の音だけを取り出す技術。例えば、バンド演奏の動画からギターの音だけを抽出したり、街中で撮った動画から人の声だけを残して雑音を消したりできます。まるでケーキから苺だけをキレイに取り出すようなイメージです。


🎧 今すぐ試せる公式デモはこちら
👉 SAM Audio 公式デモサイト
実際に音声分離を体験できます。サンプル音源または自分の動画をアップロードして、テキストで指示するだけで特定の音を抽出可能です。


最終更新日: 2025年12月22日

Meta(旧Facebook)が2025年12月16日、音声編集の世界を大きく変える可能性を秘めたAIモデル「SAM Audio」を発表しました。これは複雑に混ざり合った音から、欲しい音だけを自由に取り出せる「初の統合型マルチモーダル音声分離AI」です。

実に興味深いのは、その使い方の直感性です。従来の音声編集では専門的なツールと知識が必要でしたが、SAM Audioは誰でも簡単に操作できます。

音声編集の「Photoshop」が登場

SAM Audioは、Metaが展開する「Segment Anything(何でも分割する)」シリーズの最新作です。画像編集におけるPhotoshopのように、音声編集を誰にでも扱える身近なものにする、そんな野心的なプロジェクトと言えます。

注目すべき点は、このモデルが「統合型」であることです。従来の音声分離ツールは、ボーカル抽出専用、楽器分離専用というように用途が限定されていました。でも、SAM Audioは一つのモデルであらゆる音の分離に対応します。

革新的な3つの使い方

SAM Audioの最大の特徴は、3種類の直感的な操作方法です。これらは単独でも組み合わせても使えます。

1. テキストで指示
「犬の鳴き声」「ギターの音」といった文字を入力するだけで、その音を抽出できます。専門用語を知らなくても、普通の言葉で指示できるのです。公式デモサイトで実際に試すことができます。

2. 画面をクリック
動画の中で音を出している人や物をクリックすると、その対象の音だけが取り出せます。複数人が話している動画から「この人の声だけ」を抽出するのも簡単です。

3. 時間で指定(業界初)
動画の特定の部分で鳴っている音を指定すると、動画全体から同じ音を見つけ出して分離します。例えば、ある場所の鳥の鳴き声を指定すれば、動画全体の鳥の鳴き声が抽出されます。

この「時間指定」は業界初の機能で、Metaは「Span prompts(スパンプロンプト)」と呼んでいます。

圧倒的な性能を実証

性能面でも、SAM Audioは既存のモデルを大きく上回ります。

Meta公式の発表によると、SAM Audioは「従来の最先端モデルを幅広いベンチマークとタスクで大幅に上回る性能を達成」しています。特に注目すべきは、汎用モデルでありながら、楽器分離に特化した専門モデル「Demucs」と同等以上の性能を発揮している点です。

従来の音声分離ツールは、ボーカル抽出やノイズ除去など、特定の用途に特化する必要がありました。でも、SAM Audioは一つのモデルで音楽、会話、一般音響のすべてのカテゴリーにおいて、専門モデルに匹敵する性能を実現しています。

この高性能を支えているのが、「PE-AV(Perception Encoder Audiovisual)」という技術エンジンです。これは1億本以上の動画で学習したモデルで、映像と音声を同期させながら理解します。つまり、「画面上のギターがいつ弾かれているか」をAIが視覚的に把握し、それを音声分離のヒントとして活用するのです。

幅広い活用シーンに対応

SAM Audioの実用性は、想像以上に広範囲です。

音楽・クリエイティブ分野

  • バンド演奏動画から特定の楽器だけを抽出
  • ボーカルだけ、ドラムだけの分離
  • リミックス制作の効率化

動画制作・編集

  • 屋外撮影の交通騒音除去
  • 複数人インタビューでの音声分離
  • 不要な環境音の削除

ポッドキャスト・配信

  • 犬の鳴き声や生活音の除去
  • クリアな音声の抽出
  • 音質向上

アクセシビリティ

  • 聴覚支援機能の強化
  • 字幕生成の精度向上
  • 音声認識の改善

正直なところ、これほど多様な用途に対応できる統合モデルは初めてです。

すぐに試せるオープンソース戦略

Metaのオープンソース戦略も見逃せません。SAM Audioは以下の方法で今すぐ利用できます。

🎧 公式デモで体験
まずは実際に触ってみたい方は、公式デモサイトがおすすめです。
👉 SAM Audio 公式デモサイト

サンプル音源や自分の動画をアップロードして、テキストプロンプトで音声分離を試せます。

開発者向けリソース

  • GitHubで完全なモデルとコードを公開
  • HuggingFaceでのモデル配布
  • 研究論文も同時公開

このオープン戦略により、世界中の開発者が独自のアプリケーションやプラグインを開発し始めるでしょう。音声編集ツールのエコシステムが一気に広がる可能性があります。

音声編集の民主化が始まる

SAM Audioが示しているのは、専門技術の民主化です。これまで音響エンジニアや専門家にしかできなかった高度な音声分離が、誰でも直感的に扱えるようになります。

でも、これは単なる便利ツール以上の意味を持ちます。音声編集の敷居が下がることで、新しい表現方法や創作活動が生まれる可能性があるのです。YouTubeクリエイター、ポッドキャスター、音楽プロデューサー、映像制作者——あらゆるクリエイターの作業フローが変わるかもしれません。

個人的には、このツールが教育分野でも活用されることを期待しています。音楽の授業で楽器の音を分離して学んだり、科学の授業で環境音を分析したり、新しい学習体験が生まれるはずです。

今後の注目ポイント

SAM Audioの登場は、音声AI技術の新たなステージの始まりです。今後注目すべきは以下の点でしょう。

技術面の進化

  • リアルタイム処理の実現
  • モバイルデバイスでの動作
  • さらなる精度向上

産業への影響

  • 既存の音声編集ツールの対応
  • 新しいビジネスモデルの登場
  • クリエイティブ産業の変化

競合との関係

  • GoogleやAdobeの対抗技術
  • オープンソース vs 商用モデルの競争
  • エコシステムの形成

数年後、私たちが耳にするデジタルコンテンツの多くは、SAM Audioのような技術で「整音」されたものになっているかもしれません。音のPhotoshop時代が、今まさに幕を開けたのです。

よくある質問

Q: SAM Audioは無料で使えますか?
A: はい、公式デモサイト(https://aidemos.meta.com/segment-anything/editor/segment-audio)で無料で試用できます。また、開発者向けにはGitHubでモデルとコードがオープンソースとして公開されており、研究・開発用途で自由に利用可能です。

Q: どんな音でも分離できるのですか?
A: SAM Audioは「オープンボキャブラリー」な分離を実現しており、学習データに含まれる幅広い音響イベントに対応します。ただし、完全にすべての音に対応できるわけではなく、音源の複雑さや重なり具合によっては精度が変わる場合があります。

Q: 商用利用は可能ですか?
A: 具体的なライセンス条件については、GitHub上の公式ドキュメントを確認することをお勧めします。一般的にMetaのオープンソースAIモデルは研究・商用双方で利用可能な場合が多いですが、最新の利用規約を必ず確認してください。

まとめ

Metaの「SAM Audio」は、音声分離技術における大きな一歩です。テキスト、クリック、時間指定という3つの直感的な方法で、誰でも複雑な音声編集ができるようになりました。

既存モデルを大きく上回る性能を持ちながら、完全オープンソースで公開されているこの技術は、音楽制作、動画編集、ポッドキャスト、アクセシビリティなど、幅広い分野での活用が期待されます。

音声編集の民主化が始まった今、あなたも公式デモサイトで実際に体験してみてはいかがでしょうか。新しい創作の可能性が、そこに広がっています。

【用語解説】

  • SAM Audio(サム・オーディオ): Metaが開発した音声分離AIモデル。Segment Anything Model for Audioの略。複雑に混ざった音から特定の音だけを抽出できる。
  • マルチモーダル: 複数の入力方式(テキスト、画像、音声など)に対応すること。SAM Audioではテキスト、視覚クリック、時間指定の3つのモダリティに対応。
  • PE-AV(ピーイー・エーブイ): Perception Encoder Audiovisualの略。音声と映像を同時に理解し、両者の関係性を学習するAIエンジン。SAM Audioの技術的中核を担う。
  • オープンソース: ソフトウェアのソースコードを無償で公開し、誰でも自由に利用・改変・再配布できるようにする開発手法。SAM AudioもGitHubで公開されている。
  • ベンチマーク: AI技術の性能を客観的に測定・比較するための標準的なテスト。SAM Audioは既存モデルと比較して高い性能を実証している。

免責事項: 本記事の情報は2025年12月22日時点のものです。必ず最新情報をご確認ください。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。

Citations:
[1] https://about.fb.com/news/2025/12/our-new-sam-audio-model-transforms-audio-editing/
[2] https://ai.meta.com/blog/sam-audio/
[3] https://ai.meta.com/samaudio/
[4] https://aidemos.meta.com/segment-anything/editor/segment-audio
[5] https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
[6] https://github.com/facebookresearch/sam-audio
[7] https://ledge.ai/articles/meta_sam_audio_release
[8] https://gigazine.net/news/20251217-meta-sam-audio-ai/

KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。

Copyright © 2026 TECH NOISY All rights reserved.