Feb 25 2026 AIニュース

OpenAIが音声AI新モデル「gpt-realtime-1.5」を公開、精度と安定性が向上

#トレンドトピック

📖 この記事で分かること

OpenAIがRealtime API向け新モデルを2月23日にリリース
英数字の書き起こし精度が約10%、指示追従性が7%向上
料金は据え置きで、既存のgpt-realtimeと同額
音声AIエージェント開発の実用性がさらに高まった

💡 知っておきたい用語

Realtime API：電話やアプリで「人間と話すように」AIと音声でやりとりするための接続口。チャットボットの”電話版インフラ”のようなもの

最終更新日: 2026年02月25日

Contents

OpenAIが音声特化の新モデル「gpt-realtime-1.5」をリリース
料金と仕様の詳細
早期導入企業の評価と業界への影響
今後の注目点

OpenAIが音声特化の新モデル「gpt-realtime-1.5」をリリース

OpenAIは2026年2月23日（現地時間）、Realtime API【リアルタイムエーピーアイ】向けの新モデル「gpt-realtime-1.5」を公開しました。音声エージェントやカスタマーサポート向けに設計された同モデルは、指示追従性、ツール呼び出しの信頼性、多言語対応の精度が前モデルから改善されています。

OpenAIの開発者向けフォーラムおよび公式ドキュメントによると、主な改善点は以下のとおりです。

Big Bench Audio推論で+5%の向上
英数字（アルファニューメリック）の書き起こし精度が+10.23%向上
指示追従性（インストラクション・フォロー）が+7%向上
ツール呼び出し（ファンクションコーリング）と多言語処理の安定性が全般的に改善

同時に、Chat Completions API向けには「gpt-audio-1.5」もリリースされています。

料金と仕様の詳細

gpt-realtime-1.5の料金体系は、前モデル「gpt-realtime」と同額に据え置かれました。音声AIを本格的に業務へ導入する開発者にとって、性能向上がコスト増なしで得られる点は大きなメリットです。

料金は以下のとおりです（100万トークンあたり）。

テキスト入力: $4.00（キャッシュ: $0.40）
テキスト出力: $16.00
音声入力: $32.00（キャッシュ: $0.40）
音声出力: $64.00
画像入力: $5.00（キャッシュ: $0.50）

仕様面では、コンテキストウィンドウが32,000トークン、最大出力トークン数が4,096となっています。入力はテキスト・音声・画像に対応し、出力はテキストと音声をサポートします。接続方式はWebRTC【ウェブアールティーシー】、WebSocket【ウェブソケット】、SIP【エスアイピー】の3種類が利用可能です。

なお、構造化出力（Structured Outputs）やファインチューニングには現時点で非対応です。

早期導入企業の評価と業界への影響

すでにいくつかの企業がgpt-realtime-1.5を導入し、成果を報告しています。

AI検索サービスを手がけるGenspark【ジェンスパーク】は、接続成功率がほぼ倍増し最大66%に達したほか、電話通話時のエラーが半減したと報告しています。コミュニケーションプラットフォームのSendbird【センドバード】は、割り込み処理（ユーザーが途中で話し始めた場合の対応）が大幅に改善されたと評価しています。

前モデル「gpt-realtime」（2025年8月に一般提供開始）の時点で、MultiChallenge【マルチチャレンジ】ベンチマークでの指示追従精度が30.5%（2024年12月モデルは20.6%）、ComplexFuncBench【コンプレックスファンクベンチ】での関数呼び出し性能が66.5%（同49.7%）と報告されていました。gpt-realtime-1.5はこれをさらに上回る改善を実現した形です。

音声AIエージェント市場では、GoogleやAmazon（Alexa）など競合も積極的に開発を進めています。OpenAIがRealtime APIの性能を着実に引き上げていることは、企業向け音声AIの品質競争が本格化していることを示しています。

今後の注目点

gpt-realtime-1.5の登場と同時に、OpenAIはResponses APIでのWebSocketサポートも開始しました。The Decoderの報道によると、これにより複雑なAIエージェントのツール呼び出しが20〜40%高速化されるとのことです。

開発者にとっては、音声エージェントの「正確さ」と「速度」の両面が強化されたことになります。特にカスタマーサポートや営業支援など、ミスが許されない業務への導入がしやすくなったと考えられます。

一方で、知識のカットオフ日が2024年9月30日である点は注意が必要です。最新情報を扱うユースケースでは、外部データソースとの連携設計が引き続き重要になります。今後のモデルアップデートで知識カットオフがどこまで更新されるかも注目ポイントです。

よくある質問

Q: gpt-realtime-1.5は無料プランでも使えますか？

A: OpenAIの公式ドキュメントによると、Freeティアではサポートされていません。Tier 1以上のAPIプランが必要です。

Q: 前モデル「gpt-realtime」からの移行に、コード変更は必要ですか？

A: モデル名の指定を「gpt-realtime-1.5」に変更するだけで基本的に利用可能です。APIの接続方式やリクエスト形式に変更はありません。

Q: 日本語の音声認識・音声合成には対応していますか？

A: 多言語対応が改善されたとOpenAIは発表していますが、日本語に特化したベンチマーク結果は現時点で公開されていません。実際の精度は用途に応じた検証が推奨されます。

まとめ

OpenAIがリリースしたgpt-realtime-1.5は、音声AIエージェント開発における精度と信頼性を一段引き上げるアップデートです。英数字の書き起こし精度が約10%向上し、指示追従性やツール呼び出しの安定性も改善されました。料金が据え置きである点も、導入を検討している開発者にとっては前向きな材料です。音声AIの実用化が進むなかで、今後のさらなるモデル改善と競合動向に注目が集まります。

【用語解説】

Realtime API【リアルタイムエーピーアイ】: OpenAIが提供する、音声を使ったリアルタイム対話を可能にするAPIの総称。WebRTC、WebSocket、SIPの3方式で接続できる
ファンクションコーリング【Function Calling】: AIモデルが会話の流れに応じて外部のプログラム（関数）を呼び出す機能。たとえば予約システムへの問い合わせなどを自動で実行できる
SIP【エスアイピー】: Session Initiation Protocolの略。電話回線とAIを接続するための通信規格で、企業のコールセンターなどで利用される

免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。

引用元:

[1] OpenAI公式ドキュメント（gpt-realtime-1.5モデルページ） – https://developers.openai.com/api/docs/models/gpt-realtime-1.5
[2] OpenAI Developer Community（リリースアナウンス） – https://community.openai.com/t/gpt-realtime-1-5-is-live-in-realtime-api/1374919
[3] OpenAI公式ブログ（gpt-realtime紹介） – https://openai.com/index/introducing-gpt-realtime/
[4] The Decoder（APIアップデート報道） – https://the-decoder.com/openai-ships-api-upgrades-targeting-voice-reliability-and-agent-speed-for-developers/
[5] OpenAI APIチェンジログ – https://platform.openai.com/docs/changelog

Claudeから能力を不正抽出　DeepSeekら3社の蒸留攻撃が発覚

KOJI TANEMURA

15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。

技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。

また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。

OpenAIが音声AI新モデル「gpt-realtime-1.5」を公開、精度と安定性が向上

OpenAIが音声特化の新モデル「gpt-realtime-1.5」をリリース

料金と仕様の詳細

早期導入企業の評価と業界への影響