NVIDIA ENPIRE - NVIDIA ENPIRE 発表。AIエージェントでロボット方策を自律改善、成功率99% anchor left anchor right

Jun 23 2026 AIニュース

NVIDIA ENPIRE 発表。AIエージェントでロボット方策を自律改善、成功率99%

anchor left anchor right

NVIDIA ENPIRE は、コーディングエージェントを使ってロボットの方策を現実世界で自律的に改善する閉ループのフレームワークで、NVIDIA・CMU・UC Berkeley が2026年6月19日に公開しました。

📖 この記事で分かること

  • NVIDIA らが公開したロボット学習フレームワーク「ENPIRE」の仕組み
  • Claude Code・Codex などのコーディングエージェントが担う役割
  • 実機5タスクで成功率99%を出した評価結果と測定指標
  • 業務でロボット自動化を見据える際に押さえる論点

💡 知っておきたい用語

  • 方策(ポリシー):ロボットが「どの状況でどう動くか」を決める制御プログラム。人間で言う「手順書」に近い。
  • 閉ループ:実行→結果確認→修正を自動で回す仕組み。一度きりで終わらず改善が積み上がる。

最終更新日: 2026年6月21日

▶ 公式ページ

NVIDIA ENPIRE - NVIDIA ENPIRE 発表。AIエージェントでロボット方策を自律改善、成功率99%

ENPIRE とは何か

ENPIRE は、Claude Code などのコーディングエージェントを使ってロボットの方策を現実世界で自動改善する閉ループのフレームワークです。NVIDIA・カーネギーメロン大学(CMU)・UC Berkeley の共同研究として、2026年6月19日に公開されました。

この記事のポイント

  • NVIDIA・CMU・UC Berkeley が 2026年6月19日に ENPIRE を公開。コーディングエージェントでロボット方策を自律改善する。
  • Claude Code(Opus 4.7 搭載)・Codex(GPT-5.5 搭載)・Kimi Code(Kimi K2.6 搭載)を評価対象とした(2026年6月時点)。
  • 実機5タスクで成功率99%(pass@8)。1〜8 台のフリート規模でも検証。
  • 一方でロボット遊休やトークン消費増といった運用課題も明示されている。

ENPIRE という名称は、4 つのモジュールの頭文字に由来します。「Environment(環境)」「Policy Improvement(方策改善)」「Rollout(試行)」「Evolution(進化)」です。これらが連動し、ロボットの現実世界での学習を「制御可能な最適化手続き」へと組み替える点が中核にあります。

4 つのモジュールがどう動くか

ENPIRE は実行から修正までを途切れさせず回し、人間の介入を最小化します。各モジュールの役割は次のとおりです。

  • Environment(EN):シーンの自動リセットと、結果を確かめる検証インターフェースを用意する。
  • Policy Improvement(PI):報酬・動画・実行トレース・失敗ケースをもとに、方策のコードを生成する。
  • Rollout(R):あらかじめ決めた予算の範囲でロボットを試行させ、状態・行動・動画・結果を記録する。
  • Evolution(E):複数の試行ブランチを比較し、成功したレシピを再利用しつつ、ハードウェアでの検証に基づいて仮説を絞り込む。

ここで重要なのは、エージェントが単発でコードを書くのではなく、「シーン自動リセット → 方策の実行 → 結果検証 → 次イテレーションの精緻化」というループを反復する設計です。実機で起きた失敗が次のコード生成に反映されるため、改善が積み上がります。

評価結果と測定指標

ENPIRE は複数のコーディングエージェントで評価されました。対象は、Claude Code(Opus 4.7 搭載)、Codex(GPT-5.5 搭載)、Kimi Code(Kimi K2.6 搭載)の 3 つです(2026年6月時点)。

実機タスクでは、「Push-T」「Pin Insertion(ピン挿入)」「GPU Insertion(GPU 設置)」「Tie Zip-tie(結束バンド締め)」「Cut Zip-tie(結束バンド切断)」の 5 つで、いずれも成功率 99% を達成しています。この数値は pass@8、つまり最大 8 回までの文脈内リトライを許した上での回復能力を測る指標です。1 回でランダムに当てる確率ではなく、失敗から立て直せるかを評価している点に注意が必要です。

スケーリングの検証では、ロボットのフリート規模を 1 台・4 台・8 台で比較しています。Pin Insertion は 0.5〜1.5 時間で成功に到達したと報告されています。評価には平均ロボット利用率(MRU)と平均トークン利用率(MTU)が用いられ、台数を増やしたときに「実機の稼働」と「トークン消費」がどう変化するかを定量的に追っています。シミュレーション側では RoboCasa を使い、「Coffee Setup Mug」「Open Cabinet」を含む 8 タスクで評価しました。

残された課題

ENPIRE は完成形ではなく、運用上の制約も率直に挙げられています。第一に、エージェントがログを読み、コードを書き、デバッグしている間はロボットが遊休するため、リソースを使い切れない場面が生じます。第二に、フリートを拡大するほど総トークン予算が膨らみ、MRU(実機稼働の効率)が下がる一方で GPU 利用率は上がるという相反が起きます。第三に、並列の訓練セッションが足りず、GPU リソースを完全には消費できないという調整不足も指摘されています。

これらは「エージェント主導のロボット学習」を実運用へ広げるときに、計算コストと実機稼働のバランス設計が鍵になることを示しています。

編集部の見方

位置づけ:エージェントの適用先が「コード」から「実機」へ広がる。これまで Claude Code や Codex は主にソフトウェア開発の自動化で語られてきました。ENPIRE はそれらを「ロボットの方策を書き換えて改善するハーネス」として使う構図で、エージェントの活用領域が物理タスクへ接続した事例として読めます。

成功率99%の読み方。99% は pass@8、つまりリトライ込みの回復力を測る数値です。1 発成功率ではないため、現場導入の検討では「何回まで試行させる前提か」「リトライのコストをどこまで許容できるか」をセットで見る必要があります。数字の高さだけで即戦力と判断するのは早計です。

コスト構造が論点になる。本研究自身がトークン消費の増大と実機稼働効率の相反を課題として挙げています。エージェント主導の自動改善は、人件費ではなく計算コストへ負担が移るアプローチです。製造・物流などでロボット自動化を検討する読者にとっては、ROI の試算軸が「人の作業時間」から「トークン+GPU の運用費」へ変わる可能性を示唆します。

誰に刺さるか。ロボティクスの研究開発に携わる層、そしてエージェント活用を実機制御まで広げたいエンジニアには見逃せない発表です。一方、すぐに業務へ転用できる製品ではなく、現時点では研究フレームワークである点は踏まえておくべきです。

まとめ

ENPIRE は、Claude Code・Codex・Kimi Code といったコーディングエージェントを使い、ロボットの方策を現実世界で自律的に改善する閉ループのフレームワークです。実機5タスクで成功率99%(pass@8)を示しつつ、トークン消費や実機稼働効率といった運用課題も明示されました。エージェントの活躍範囲がソフトウェアから物理タスクへ広がる動きを示す、実務にも示唆の多い研究です。


よくある質問

Q: ENPIRE はすぐに業務で使えますか?

A: 現時点では NVIDIA Research らが公開した研究フレームワークで、製品として提供されているわけではありません。論文は Google Drive 経由で公開されています。

Q: 成功率99%はどのくらい信頼できる数値ですか?

A: pass@8(最大8回までの文脈内リトライを許した指標)での値です。1 回での成功率ではなく、失敗から立て直す回復能力を測っている点に注意してください。

Q: どのAIモデルが使われていますか?

A: 評価対象は Claude Code(Opus 4.7)、Codex(GPT-5.5)、Kimi Code(Kimi K2.6)の3つです(2026年6月時点)。


まとめ

ENPIRE は、コーディングエージェントを実機ロボットの方策改善に応用する閉ループ手法です。99%(pass@8)という成果と、トークン消費・実機稼働効率の課題が同時に示され、エージェント活用の次の適用先として物理タスクが視野に入りつつあることを示しています。


【用語解説】

  • pass@8: 同じタスクに最大8回まで挑戦させ、そのうち1回でも成功すれば成功と数える評価方法。失敗からの立て直しを含めた実力を測る。
  • フリート: 同時に動かすロボットの集団。台数を増やすほど学習を速められる一方、計算コストも増える。
  • MRU / MTU: 平均ロボット利用率(Mean Robot Utilization)と平均トークン利用率(Mean Token Utilization)。実機の稼働と計算資源の使われ方を測る指標。

引用元:


この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。

anchor left anchor right
KOJI TANEMURA

15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。