📖 この記事で分かること
- Netflixが初のオープンソースAIモデル「VOID」を2026年4月3日に公開
- 単なる消去ではなく、物理的相互作用ごと映像を書き換える新技術
- Apache 2.0ライセンスで商用利用可能、Hugging Faceで無料公開
- 人間評価でRunwayを上回る64.8%の支持率を記録
💡 知っておきたい用語
- インペインティング:映像や画像の一部を削除した後、その空白を周囲と自然につながるよう自動補完する技術。消しゴムで消した跡を、まるで最初からそこに何もなかったかのように塗り直すイメージです。
最終更新日: 2026年04月06日
VoidはNetflix初のオープンソースAIモデル
Netflixが初めてオープンソースとして公開したAIモデルが、動画編集の世界に新たな基準をもたらす可能性があります。2026年4月3日、同社はビデオ内の物体を除去するAIフレームワーク「VOID(ヴォイド)」をHugging Face上で一般公開しました。
VOIDは「Video Object and Interaction Deletion」の略称で、映像から人物や物体を削除するだけでなく、その物体が周囲に与えていた物理的な影響まで含めて書き換える点が従来ツールとの大きな違いです。NetflixとINSAITソフィア大学の研究者チームが共同開発し、arXivに論文(2604.02296)を提出。Apache 2.0ライセンスで商用利用も認められています。
何が新しいのか——「物理的相互作用の削除」という発想
これまでの動画編集ツールの限界と、VOIDが解決しようとした課題を整理します。
従来の動画インペインティングツールが得意としていたのは、削除した物体の背後にある背景を補完することでした。影や反射といった外見上の痕跡は修正できても、より複雑な物理的相互作用——例えば衝突や接触——には対応できず、不自然な映像が残ってしまうという問題がありました。
VOIDが解決するのはまさにその点です。論文では次のような具体例が示されています。
- 衝突シーン: 2台の車が正面衝突する映像から1台を削除すると、残った車が道路を普通に走り続ける自然な映像が生成される。衝突後の破片、煙、炎もすべて消え、きれいな路面に置き換えられる
- プールシーン: 人物がプールに飛び込む映像からその人物を削除すると、水面が乱れず穏やかなままの映像が生成される。水しぶきも地面への飛び散りも一切残らない
- ギターシーン: ギターを持つ人物を削除すると、ギターが重力に従って自然に落下する映像が生成される
これらを実現するために、VOIDは推論時に**ビジョン言語モデル(VLM)**を用いて削除対象の物体が周囲に与えている影響範囲を特定し、その領域を「クアッドマスク(4値マスク)」として定義。影響範囲を考慮したうえでビデオ拡散モデルが物理的に整合性のある映像を生成します。
技術構成——CogVideoXをベースにした2パスアーキテクチャ
VOIDの技術的な基盤と動作の仕組みを解説します。
ベースモデル: アリババPAIが公開している「CogVideoX-Fun-V1.5-5b-InP」(パラメータ数50億)を採用。3D Transformerアーキテクチャを持つビデオ拡散モデルで、時系列フレームを扱えるのが特徴です。
推論パイプライン:
- パス1: 削除した物体の影響範囲を考慮しながら、基本的な物理整合性のある映像を生成
- パス2(オプション): オプティカルフロー(光学フロー)を用いたワープノイズ初期化により、長尺映像での時間的一貫性をさらに改善
マスク生成:
- Meta製「SAM2」が削除対象物体のセグメンテーションを担当
- Google「Gemini」が影響範囲の特定と場面解析を担当
学習データ:
- Googleの「Kubric」:剛体物理シミュレーションによる合成データ
- Adobeの「HUMOTO」:人間と物体の相互作用データ(Blenderで物理演算)
- 学習には8基のA100 80GB GPUとDeepSpeed ZeRO Stage 2を使用
動作要件: 推論には40GB以上のVRAMを持つGPU(A100等)が必要です。
評価結果と競合比較
論文に基づく評価では、25人を対象とした人間評価テストにおいて、VOIDは複数のシナリオで64.8%の支持率を獲得。2位のRunwayが18.4%にとどまったことから、既存の有料ツールと比べても高い品質が確認されています。
比較対象となった主な競合ツールは以下の通りです。
| ツール | 特徴 |
|---|---|
| Runway | 商用ビデオ編集AIの代表格。物理整合性はVOIDより劣る |
| ProPainter | オープンソースのビデオインペインティング先行モデル |
| DiffuEraser / ROSE | 動画オブジェクト削除の既存モデル |
| Adobe Premiere Pro(Firefly) | 商用統合ツール。操作性は高いが物理再現性は限定的 |
ただし、この評価はNetflixの研究チーム自身による論文内での報告である点は留意が必要です。独立した第三者評価はまだ限定的です。
活用シナリオと課題・展望
VOIDが映像制作の現場にもたらす可能性と、現時点での制限を整理します。
想定される活用シナリオ:
- 映画・ドラマのポスプロ(後期制作)での撮り直し回避
- 商業動画広告の素材修正(契約切れのタレント除去など)
- ニュース映像や記録映像の編集補助
- インディペンデント制作者による低コストVFX
現時点での制約:
- 推論に40GB超のVRAMが必要なため、一般的なGPUでは動作しない
- デフォルト解像度は384×672、最大197フレームまで
- 学習用データはライセンス上の制約から非公開(データ生成コードのみ公開)
- Hugging Face上のGradioデモは試験的段階
展望: Netflixは現時点でVOIDを自社プロダクトやパイプラインに組み込む計画を公表していません。あくまで研究成果のオープン公開という位置づけであり、実運用への展開については今後の発表を待つ必要があります。
よくある質問
Q: VOIDは誰でも無料で使えますか?
A: はい。Apache 2.0ライセンスで公開されており、個人・商用を問わず無料で利用できます。Hugging Face(netflix/void-model)からモデルをダウンロードして、自身の環境で実行できます。ただし推論には40GB以上のVRAMを持つGPUが必要です。
Q: 従来のビデオ編集ツールと何が違うのですか?
A: 従来ツールは削除した物体の背後にある背景を補完するにとどまっていました。VOIDは削除した物体が他の物体に与えていた「衝突」「接触」「支持」などの物理的な影響まで検出・補正し、物理的に整合した映像を生成します。
Q: Netflix自身の制作に使われているのですか?
A: 現時点でNetflixは自社プロダクトやパイプラインへの組み込み計画を公式には発表していません。今回の公開はあくまで研究成果のオープンソース化という位置づけです。
まとめ
Netflixが公開したVOIDは、動画からオブジェクトを削除するだけでなく、そのオブジェクトが引き起こしていた物理的相互作用ごと映像を書き換える点で従来ツールとは一線を画します。Apache 2.0での無料公開により、映画・広告・インディペンデント制作など幅広い現場での活用が期待されます。一方で、高スペックGPUの要件や実運用への適用可能性など、課題も残っています。研究コミュニティの反応は好調で、今後の発展が注目されます。
【用語解説】
- インペインティング: 映像や画像の一部を削除した後、空白を周囲と自然につながるよう自動補完する技術。
- CogVideoX【こぐびでおえっくす】: アリババPAIが開発した3D Transformerベースのビデオ生成拡散モデル。VOIDの基盤として採用されている。
- クアッドマスク: VOIDが使用する4値マスク形式。「削除対象(0)」「重複領域(63)」「影響範囲(127)」「保持(255)」の4段階で映像領域を定義する。
- カウンターファクチュアル: 「もし〇〇がなかったら」という反事実的な仮定に基づく映像生成アプローチ。VOIDの学習データ生成に用いられている。
- SAM2【さむつー】: MetaのSegment Anything Model 2。映像中の任意の物体を高精度でセグメンテーション(領域分離)する汎用AIモデル。
免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。
引用元:
- [1] Netflix/void-model — GitHub – https://github.com/Netflix/void-model
- [2] Netflix/void-model — Hugging Face – https://huggingface.co/netflix/void-model
- [3] VOID: Video Object and Interaction Deletion — arXiv:2604.02296 – https://arxiv.org/abs/2604.02296
- [4] Netflix open-sources VOID — The Decoder – https://the-decoder.com/netflix-open-sources-void-an-ai-framework-that-erases-video-objects-and-rewrites-the-physics-they-left-behind/
- [5] Now even Netflix has its own video AI — The Register – https://www.theregister.com/2026/04/03/netflix_video_ai/
15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。
技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。
また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。