Feb 25 2026
OpenAIが音声AI新モデル「gpt-realtime-1.5」を公開、精度と安定性が向上
📖 この記事で分かること
- OpenAIがRealtime API向け新モデルを2月23日にリリース
- 英数字の書き起こし精度が約10%、指示追従性が7%向上
- 料金は据え置きで、既存のgpt-realtimeと同額
- 音声AIエージェント開発の実用性がさらに高まった
💡 知っておきたい用語
- Realtime API:電話やアプリで「人間と話すように」AIと音声でやりとりするための接続口。チャットボットの”電話版インフラ”のようなもの
最終更新日: 2026年02月25日
OpenAIが音声特化の新モデル「gpt-realtime-1.5」をリリース
OpenAIは2026年2月23日(現地時間)、Realtime API【リアルタイムエーピーアイ】向けの新モデル「gpt-realtime-1.5」を公開しました。音声エージェントやカスタマーサポート向けに設計された同モデルは、指示追従性、ツール呼び出しの信頼性、多言語対応の精度が前モデルから改善されています。
OpenAIの開発者向けフォーラムおよび公式ドキュメントによると、主な改善点は以下のとおりです。
- Big Bench Audio推論で+5%の向上
- 英数字(アルファニューメリック)の書き起こし精度が+10.23%向上
- 指示追従性(インストラクション・フォロー)が+7%向上
- ツール呼び出し(ファンクションコーリング)と多言語処理の安定性が全般的に改善
同時に、Chat Completions API向けには「gpt-audio-1.5」もリリースされています。
料金と仕様の詳細
gpt-realtime-1.5の料金体系は、前モデル「gpt-realtime」と同額に据え置かれました。音声AIを本格的に業務へ導入する開発者にとって、性能向上がコスト増なしで得られる点は大きなメリットです。
料金は以下のとおりです(100万トークンあたり)。
- テキスト入力: $4.00(キャッシュ: $0.40)
- テキスト出力: $16.00
- 音声入力: $32.00(キャッシュ: $0.40)
- 音声出力: $64.00
- 画像入力: $5.00(キャッシュ: $0.50)
仕様面では、コンテキストウィンドウが32,000トークン、最大出力トークン数が4,096となっています。入力はテキスト・音声・画像に対応し、出力はテキストと音声をサポートします。接続方式はWebRTC【ウェブアールティーシー】、WebSocket【ウェブソケット】、SIP【エスアイピー】の3種類が利用可能です。
なお、構造化出力(Structured Outputs)やファインチューニングには現時点で非対応です。
早期導入企業の評価と業界への影響
すでにいくつかの企業がgpt-realtime-1.5を導入し、成果を報告しています。
AI検索サービスを手がけるGenspark【ジェンスパーク】は、接続成功率がほぼ倍増し最大66%に達したほか、電話通話時のエラーが半減したと報告しています。コミュニケーションプラットフォームのSendbird【センドバード】は、割り込み処理(ユーザーが途中で話し始めた場合の対応)が大幅に改善されたと評価しています。
前モデル「gpt-realtime」(2025年8月に一般提供開始)の時点で、MultiChallenge【マルチチャレンジ】ベンチマークでの指示追従精度が30.5%(2024年12月モデルは20.6%)、ComplexFuncBench【コンプレックスファンクベンチ】での関数呼び出し性能が66.5%(同49.7%)と報告されていました。gpt-realtime-1.5はこれをさらに上回る改善を実現した形です。
音声AIエージェント市場では、GoogleやAmazon(Alexa)など競合も積極的に開発を進めています。OpenAIがRealtime APIの性能を着実に引き上げていることは、企業向け音声AIの品質競争が本格化していることを示しています。
今後の注目点
gpt-realtime-1.5の登場と同時に、OpenAIはResponses APIでのWebSocketサポートも開始しました。The Decoderの報道によると、これにより複雑なAIエージェントのツール呼び出しが20〜40%高速化されるとのことです。
開発者にとっては、音声エージェントの「正確さ」と「速度」の両面が強化されたことになります。特にカスタマーサポートや営業支援など、ミスが許されない業務への導入がしやすくなったと考えられます。
一方で、知識のカットオフ日が2024年9月30日である点は注意が必要です。最新情報を扱うユースケースでは、外部データソースとの連携設計が引き続き重要になります。今後のモデルアップデートで知識カットオフがどこまで更新されるかも注目ポイントです。
よくある質問
Q: gpt-realtime-1.5は無料プランでも使えますか?
A: OpenAIの公式ドキュメントによると、Freeティアではサポートされていません。Tier 1以上のAPIプランが必要です。
Q: 前モデル「gpt-realtime」からの移行に、コード変更は必要ですか?
A: モデル名の指定を「gpt-realtime-1.5」に変更するだけで基本的に利用可能です。APIの接続方式やリクエスト形式に変更はありません。
Q: 日本語の音声認識・音声合成には対応していますか?
A: 多言語対応が改善されたとOpenAIは発表していますが、日本語に特化したベンチマーク結果は現時点で公開されていません。実際の精度は用途に応じた検証が推奨されます。
まとめ
OpenAIがリリースしたgpt-realtime-1.5は、音声AIエージェント開発における精度と信頼性を一段引き上げるアップデートです。英数字の書き起こし精度が約10%向上し、指示追従性やツール呼び出しの安定性も改善されました。料金が据え置きである点も、導入を検討している開発者にとっては前向きな材料です。音声AIの実用化が進むなかで、今後のさらなるモデル改善と競合動向に注目が集まります。
【用語解説】
- Realtime API【リアルタイムエーピーアイ】: OpenAIが提供する、音声を使ったリアルタイム対話を可能にするAPIの総称。WebRTC、WebSocket、SIPの3方式で接続できる
- ファンクションコーリング【Function Calling】: AIモデルが会話の流れに応じて外部のプログラム(関数)を呼び出す機能。たとえば予約システムへの問い合わせなどを自動で実行できる
- SIP【エスアイピー】: Session Initiation Protocolの略。電話回線とAIを接続するための通信規格で、企業のコールセンターなどで利用される
免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。
引用元:
- [1] OpenAI公式ドキュメント(gpt-realtime-1.5モデルページ) – https://developers.openai.com/api/docs/models/gpt-realtime-1.5
- [2] OpenAI Developer Community(リリースアナウンス) – https://community.openai.com/t/gpt-realtime-1-5-is-live-in-realtime-api/1374919
- [3] OpenAI公式ブログ(gpt-realtime紹介) – https://openai.com/index/introducing-gpt-realtime/
- [4] The Decoder(APIアップデート報道) – https://the-decoder.com/openai-ships-api-upgrades-targeting-voice-reliability-and-agent-speed-for-developers/
- [5] OpenAI APIチェンジログ – https://platform.openai.com/docs/changelog
Previous Post
Claudeから能力を不正抽出 DeepSeekら3社の蒸留攻撃が発覚
Next Post
GoogleがAI音楽プラットフォーム「ProducerAI」を買収、Google Labsに統合
15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。
技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。
また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。