Thinking Machines、リアルタイム協働AI「Interaction Models」を発表——TML-Interaction-Small はレイテンシ0.40秒でGPT超え anchor left anchor right

May 13 2026 AIニュース

Thinking Machines、リアルタイム協働AI「Interaction Models」を発表——TML-Interaction-Small はレイテンシ0.40秒でGPT超え

anchor left anchor right

📖 この記事で分かること

  • Thinking Machines Labが2026年5月に発表したInteraction Modelsの概要
  • ターン制AIとの根本的な違いと「エンコーダーフリー早期融合」の仕組み
  • GPT-Realtime-2・Gemini 3.1 Flash Liveとのベンチマーク比較
  • ビジネス現場での活用可能性と現時点の制約

💡 知っておきたい用語

  • Interaction Model(インタラクションモデル): 音声・映像・テキストをリアルタイムに同時処理し、人間との継続的な協働を前提に設計されたAIモデルの新カテゴリ
  • ターン制モデル: ユーザーが発話を終えるまで待機し、生成中は新規入力を受け付けない従来型の応答方式
  • MoE(Mixture of Experts): 特定タスクに応じて異なる専門モジュールを切り替えることでパラメータ効率を高めるモデル構造

最終更新日: 2026年5月13日

Thinking Machines Lab がInteraction Modelsを発表

元OpenAI CTOのMira Muratiが創業したThinking Machines Labは2026年5月11日、新しいAIモデルファミリー「Interaction Models」のリサーチプレビューを公開しました。同社初となる詳細な技術ブログも合わせて公開され、AI業界に向けて「リアルタイム協働」を次の主戦場として宣言した格好です。

Interaction Modelsの核心は、インタラクティビティを外付けの仕組みではなくモデル本体の能力として訓練するという設計思想にあります。音声・映像・テキストを継続的に取り込みながら、話しかけている最中でも返答・検索・UI生成を並行実行できます。

なぜターン制AIでは不十分か——「協働ボトルネック」の構造

既存のフロンティアモデルは「シングルスレッド」で現実を認識します。ユーザーの発話が終わるまでモデルは待機し、モデルが生成している間は新たな入力を受け付けません。Thinking Machinesはこの構造を「協働のボトルネック」と定義し、論文の冒頭から批判的に分析しています。

現実のビジネス業務では、要件を完全に定義してからAIに任せて離席するような運用は少数派です。むしろ、進行中の作業に割り込んで方向修正したり、見ている画面を共有しながら口頭で補足したりする「その場その場の判断」が多くの知識労働の実態に近い——この認識がInteraction Modelsの出発点です。

同社はまた、「自律型AIエージェントが重要な能力である」という近年の業界トレンドにも疑義を呈しています。自律エージェントは価値があるが、ほとんどの実務においてはユーザーがループの中に留まれる協働型インターフェースの方が実効性が高いという立場です。

リアルタイムでのユーザーとAIの協働が重要という視点については、以下の記事でOpenAIとxAIの音声基盤の取り組みを解説しています:

TML-Interaction-Smallの主要仕様と技術アーキテクチャ

今回のリサーチプレビューで公開されたモデルは「TML-Interaction-Small」(2026年5月時点)で、パラメータ数は276B・アクティブ12BのMoE構成です。

ミクロターン設計とエンコーダーフリー早期融合

従来のターン制モデルが入力と出力を一本のトークン列に平坦化するのに対し、TML-Interaction-Smallは200ミリ秒単位のマイクロターンを連続ストリームとして処理します。入力ストリームと出力ストリームが同時進行するため、ユーザーが話し続けている間にもモデルが応答・検索・UI生成を並行実行できます。

マルチモーダル処理には「エンコーダーフリー早期融合」を採用しています。多くの既存システムでは音声・映像を別々のエンコーダーでテキストに変換してからLLMに渡す構造を取りますが、同モデルは生の音声・映像信号をトランスフォーマーの中核レイヤーで直接処理します。これにより、200ミリ秒未満での入力処理が可能になっています。

非同期バックグラウンドモデルの並列動作

システムはインタラクションモデルと非同期バックグラウンドモデルの2層構成です。バックグラウンドモデルは拡張推論やツール呼び出しを担当し、会話を止めることなくWeb検索や演算を実行して結果を会話に自然に織り込みます。デモでは、相手が話している最中にモデルが検索を完了し、応答の中にシームレスに組み込む様子が示されました。

ベンチマーク結果:GPT-Realtime-2とGemini 3.1 Flash Liveを上回る

公開されたベンチマーク結果(2026年5月時点)は以下の通りです。

FD-bench v1.5(インタラクション品質)

  • TML-Interaction-Small: 77.8

  • Gemini 3.1 Flash Live: 54.3

  • GPT-Realtime-2.0: 46.8

エンドツーエンド応答レイテンシ

  • TML-Interaction-Small: 0.40秒

  • Gemini 3.1 Flash Live: 0.57秒

  • GPT-Realtime-2.0: 1.18秒

「時間認識」と「ビジュアルイニシアチブ」という新設ベンチマークでも同モデルがトップスコアを記録しています。なお、GPT-Realtime-2(minimal構成)など既存モデルはこれらのタスクで沈黙するか不正解という結果だったと同社は報告しています。

公開範囲と今後の展開

現時点でのリサーチプレビューへのアクセスは限定された研究者グループに限られています。より広範なアクセスは「年内後半」を予定しているとのことで、具体的な日程は未公表です。

同社はまた、インタラクティビティの評価フレームワーク開発を支援するリサーチグラントの立ち上げも予告しています。詳細は近日公開予定とされています。

人材面では、PyTorchの生みの親であるMeta出身のSoumith ChintalaがCTOに就任したほか、Metaでマルチモーダル知覚システムを手がけた8年選手Weiyao Wangの参画も報告されています。

編集部の見方

ターン制モデルとの差別化点:「インタラクティビティをモデル本体に焼き込む」というアーキテクチャ上の選択は、単なる性能改善ではなくカテゴリ再定義の試みです。OpenAIのRealtime APIやGoogleのLive APIがVAD(音声区間検出)などのハーネスで既存LLMを包む構造を取るのに対し、TMLはゼロからの訓練で対話能力をスケールに乗せようとしています。この方向性が正しければ、既存の大規模投資が無効化されるリスクを競合各社は抱えます。

スケールへの課題:今回公開された276B-A12Bは「Interaction-Small」の位置付けです。論文自体が「大規模な事前訓練モデルへのスケールアップは2026年の課題」と認めており、現段階はアーキテクチャ検証フェーズです。大手ラボが既存Realtimeサービスを「研究的な姿勢か脅威か」どう評価するかが今後の焦点です。

業務活用の現実的な切り口:レイテンシ0.40秒はカスタマーサポートや商談アシスタントなど「電話に近いUX」が求められる領域に直接刺さります。現行のAPIラグ(1〜2秒)が体感品質の障壁になっているケースでは、導入の前提条件が変わる可能性があります。

誰に向くか:AIリサーチャー・音声AIプロダクト開発者・コールセンターDX担当者は優先的に動向を追う価値があります。一般業務SaaSへの波及は広範なアクセス公開後になるとみられます。

AIエージェントが自律的に動作するだけでなく、ユーザーとの協働を重視する設計思想については、以下の記事でClaudeの最新アプローチを紹介しています:

Thinking Machines Labは2026年5月11日、ターン制の限界を「協働ボトルネック」と定義し、リアルタイムマルチモーダル協働を内蔵した新モデルファミリーInteraction Modelsを発表しました。初公開モデルTML-Interaction-Smallは0.40秒のレイテンシとFD-benchトップスコアで既存のリアルタイムAIを上回る結果を示しています。スケールモデルの開発は継続中で、広範な公開は年内後半の予定です。


よくある質問

Q: Thinking Machines Labとはどんな会社ですか?

A: 元OpenAI CTOのMira Muratiが創業したAI研究ラボです。PyTorch作者のSoumith ChintalaをCTOに迎えるなど高プロファイルな人材を集めており、オープンソースへのコミットも表明しています。

Q: TML-Interaction-SmallはAPIとして利用できますか?

A: 2026年5月時点では限定的な研究者向けリサーチプレビューのみです。一般向けアクセスの時期は未公表で、「年内後半」と予告されています。

Q: 既存のOpenAI Realtime APIやGemini Live APIとの違いは?

A: 既存サービスは音声検出コンポーネントなどの外付けハーネスで対話を実現しますが、TML-Interaction-Smallはインタラクティビティをモデル訓練に組み込んでいる点が根本的な違いです。これにより、スケールアップで賢さと対話能力が同時に伸びる設計になっています。


まとめ

Interaction Modelsは、現行のリアルタイムAIが「ターン制の延長線上」にある限界を指摘し、モデル自体に対話能力を内蔵するという方向性を示した発表です。現時点では小規模な研究プレビューに留まりますが、アーキテクチャと評価指標を先に公開するという戦略は、業界の議論の枠組みを先取りしようとする意図が透けて見えます。


【用語解説】

  • VAD【ブイエーディー】(Voice Activity Detection): 発話区間を検出する音声処理コンポーネント。従来型リアルタイムAIがターン境界を判定するために使用する外付けモジュール。
  • MoE(Mixture of Experts): 入力に応じて複数の専門モジュールを動的に選択するモデル構造。全パラメータ数と実際の演算量を分離できるため、大規模モデルの効率化に使われる。
  • エンコーダーフリー早期融合: 音声・映像を専用エンコーダーでテキストに変換せず、生信号をモデルのコアレイヤーに直接入力する処理方式。レイテンシ低減に寄与する。

引用元:


この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。

anchor left anchor right
KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。

人気の記事

anchor left anchor left

おすすめの記事

anchor left anchor left

categories

anchor left anchor left

tags

anchor left anchor left