anchor left anchor right

Feb 25 2026

OpenAIが音声AI新モデル「gpt-realtime-1.5」を公開、精度と安定性が向上

anchor left anchor right

📖 この記事で分かること

  • OpenAIがRealtime API向け新モデルを2月23日にリリース
  • 英数字の書き起こし精度が約10%、指示追従性が7%向上
  • 料金は据え置きで、既存のgpt-realtimeと同額
  • 音声AIエージェント開発の実用性がさらに高まった

💡 知っておきたい用語

  • Realtime API:電話やアプリで「人間と話すように」AIと音声でやりとりするための接続口。チャットボットの”電話版インフラ”のようなもの

最終更新日: 2026年02月25日

OpenAIが音声特化の新モデル「gpt-realtime-1.5」をリリース

OpenAIは2026年2月23日(現地時間)、Realtime API【リアルタイムエーピーアイ】向けの新モデル「gpt-realtime-1.5」を公開しました。音声エージェントやカスタマーサポート向けに設計された同モデルは、指示追従性、ツール呼び出しの信頼性、多言語対応の精度が前モデルから改善されています。

OpenAIの開発者向けフォーラムおよび公式ドキュメントによると、主な改善点は以下のとおりです。

  • Big Bench Audio推論で+5%の向上
  • 英数字(アルファニューメリック)の書き起こし精度が+10.23%向上
  • 指示追従性(インストラクション・フォロー)が+7%向上
  • ツール呼び出し(ファンクションコーリング)と多言語処理の安定性が全般的に改善

同時に、Chat Completions API向けには「gpt-audio-1.5」もリリースされています。

料金と仕様の詳細

gpt-realtime-1.5の料金体系は、前モデル「gpt-realtime」と同額に据え置かれました。音声AIを本格的に業務へ導入する開発者にとって、性能向上がコスト増なしで得られる点は大きなメリットです。

料金は以下のとおりです(100万トークンあたり)。

  • テキスト入力: $4.00(キャッシュ: $0.40)
  • テキスト出力: $16.00
  • 音声入力: $32.00(キャッシュ: $0.40)
  • 音声出力: $64.00
  • 画像入力: $5.00(キャッシュ: $0.50)

仕様面では、コンテキストウィンドウが32,000トークン、最大出力トークン数が4,096となっています。入力はテキスト・音声・画像に対応し、出力はテキストと音声をサポートします。接続方式はWebRTC【ウェブアールティーシー】、WebSocket【ウェブソケット】、SIP【エスアイピー】の3種類が利用可能です。

なお、構造化出力(Structured Outputs)やファインチューニングには現時点で非対応です。

早期導入企業の評価と業界への影響

すでにいくつかの企業がgpt-realtime-1.5を導入し、成果を報告しています。

AI検索サービスを手がけるGenspark【ジェンスパーク】は、接続成功率がほぼ倍増し最大66%に達したほか、電話通話時のエラーが半減したと報告しています。コミュニケーションプラットフォームのSendbird【センドバード】は、割り込み処理(ユーザーが途中で話し始めた場合の対応)が大幅に改善されたと評価しています。

前モデル「gpt-realtime」(2025年8月に一般提供開始)の時点で、MultiChallenge【マルチチャレンジ】ベンチマークでの指示追従精度が30.5%(2024年12月モデルは20.6%)、ComplexFuncBench【コンプレックスファンクベンチ】での関数呼び出し性能が66.5%(同49.7%)と報告されていました。gpt-realtime-1.5はこれをさらに上回る改善を実現した形です。

音声AIエージェント市場では、GoogleやAmazon(Alexa)など競合も積極的に開発を進めています。OpenAIがRealtime APIの性能を着実に引き上げていることは、企業向け音声AIの品質競争が本格化していることを示しています。

今後の注目点

gpt-realtime-1.5の登場と同時に、OpenAIはResponses APIでのWebSocketサポートも開始しました。The Decoderの報道によると、これにより複雑なAIエージェントのツール呼び出しが20〜40%高速化されるとのことです。

開発者にとっては、音声エージェントの「正確さ」と「速度」の両面が強化されたことになります。特にカスタマーサポートや営業支援など、ミスが許されない業務への導入がしやすくなったと考えられます。

一方で、知識のカットオフ日が2024年9月30日である点は注意が必要です。最新情報を扱うユースケースでは、外部データソースとの連携設計が引き続き重要になります。今後のモデルアップデートで知識カットオフがどこまで更新されるかも注目ポイントです。


よくある質問

Q: gpt-realtime-1.5は無料プランでも使えますか?

A: OpenAIの公式ドキュメントによると、Freeティアではサポートされていません。Tier 1以上のAPIプランが必要です。

Q: 前モデル「gpt-realtime」からの移行に、コード変更は必要ですか?

A: モデル名の指定を「gpt-realtime-1.5」に変更するだけで基本的に利用可能です。APIの接続方式やリクエスト形式に変更はありません。

Q: 日本語の音声認識・音声合成には対応していますか?

A: 多言語対応が改善されたとOpenAIは発表していますが、日本語に特化したベンチマーク結果は現時点で公開されていません。実際の精度は用途に応じた検証が推奨されます。


まとめ

OpenAIがリリースしたgpt-realtime-1.5は、音声AIエージェント開発における精度と信頼性を一段引き上げるアップデートです。英数字の書き起こし精度が約10%向上し、指示追従性やツール呼び出しの安定性も改善されました。料金が据え置きである点も、導入を検討している開発者にとっては前向きな材料です。音声AIの実用化が進むなかで、今後のさらなるモデル改善と競合動向に注目が集まります。


【用語解説】

  • Realtime API【リアルタイムエーピーアイ】: OpenAIが提供する、音声を使ったリアルタイム対話を可能にするAPIの総称。WebRTC、WebSocket、SIPの3方式で接続できる
  • ファンクションコーリング【Function Calling】: AIモデルが会話の流れに応じて外部のプログラム(関数)を呼び出す機能。たとえば予約システムへの問い合わせなどを自動で実行できる
  • SIP【エスアイピー】: Session Initiation Protocolの略。電話回線とAIを接続するための通信規格で、企業のコールセンターなどで利用される

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。


引用元:

anchor left anchor right
KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。