OpenAIが「GPT-Realtime-2」発表、GPT-5級推論を音声AIへ実装し128Kコンテキスト対応

OpenAIが2026年5月7日、音声AIの常識を塗り替える3つの新モデルを一挙に発表しました。「話す→応答する」だけだった音声インターフェースが、推論し、翻訳し、会話の途中でツールを呼び出す「業務の主役」へと進化する転換点です。


OpenAIは2026年5月7日、APIで利用可能な3つの新しいリアルタイム音声モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」を発表した。GPT-Realtime-2はGPT-5クラスの推論能力を備えた音声モデルで、コンテキストウィンドウは32Kから128Kへ拡張され、推論レベルはminimal、low、medium、high、xhighの5段階から選択可能となった。

Big Bench Audioでは96.6%、Audio MultiChallengeでは48.5%を記録し、GPT-Realtime-1.5の81.4%および34.7%を上回った。GPT-Realtime-Translateは70以上の入力言語を13の出力言語へ翻訳する。価格はGPT-Realtime-2が音声入力100万トークンあたり32ドル、音声出力64ドル、GPT-Realtime-Translateが1分あたり0.034ドル、GPT-Realtime-Whisperが1分あたり0.017ドルである。

Zillow、Deutsche Telekom、Priceline、BolnaAI、Vimeoなどが導入を進めている。

From: 文献リンクAdvancing voice intelligence with new models in the API

【編集部解説】

OpenAIが今回発表した3つのモデルで最も注目すべき点は、音声AIの位置づけそのものが変わろうとしていることです。これまでの音声インターフェースは「話す → 認識 → 応答」という単純な往復が主流でしたが、GPT-Realtime-2は会話の途中で推論を行い、複数のツールを並列で呼び出し、訂正や中断にも対応するという、一段上の役割を担います。

特筆したいのは、コンテキストウィンドウが32Kから128Kへと4倍に拡張された点です。これは、長時間にわたる商談、医療相談、技術サポートといった、文脈の積み重ねが意味を持つ業務でも、会話の最初に交わされた前提を最後まで維持できることを意味します。短いやりとりしか想定されていなかった音声AIが、業務の主役へと押し出される下地が整ったと見ています。

もう一つ見逃せないのが、推論努力レベル(reasoning effort)を minimal から xhigh まで5段階で調整できる仕組みです。即応性が求められる質問にはレイテンシを抑え、複雑な要求には深く考えさせるという使い分けが可能になりました。これは「速さと賢さのトレードオフ」をプロダクト設計者が制御できる時代に入ったことを示しています。

OpenAIが提示した「Voice-to-Action」「Systems-to-Voice」「Voice-to-Voice」という3つのパターンは、開発者にとって設計思想の補助線になります。Zillowが「BuyAbilityの範囲で家を探して土曜に内見予約」を音声で完結させようとしている事例は、フォーム入力という発想そのものを過去のものにしうるインパクトを持ちます。

注意深く見ておきたいのが、入力70言語以上に対し出力は13言語という非対称性です。日本語が出力対応に含まれているかは現時点で公式に明示されていませんが、含まれていれば訪日インバウンド対応や日本企業のグローバル接客の景色が一気に変わります。逆に含まれていない場合、日本市場での実装には別のTTSと組み合わせるなどの工夫が必要となります。

ポジティブな影響としては、運転中、空港移動中、両手がふさがる作業中といった、これまでデジタルから切り離されていた時間がオンライン化されることが挙げられます。Pricelineが描く「旅程を全部音声で管理する未来」は、その象徴的な事例でしょう。

一方で、潜在的なリスクからも目を逸らせません。これだけ自然な音声生成が安価に提供されるようになれば、ボイスフィッシングやなりすまし詐欺の精度も同時に上がります。OpenAIはアクティブな分類器によるセッション監視や「AIであることを利用者に明示する義務」を利用ポリシーで定めていますが、悪用との競争は始まったばかりです。

規制面では、ZillowがFair Housing(米国の公正住宅取引法)コンプライアンスを評価軸に挙げた点が示唆的です。音声エージェントが業務上の意思決定に関わる以上、業界ごとの法令遵守をモデル側で担保できるかが、次の競争軸になっていきます。EUデータ・レジデンシー対応も明記されており、グローバル展開を前提とした設計が進んでいることがわかります。

長期的な視点でいえば、音声は「タイピングできる人だけが使えていたデジタル」を解放する技術になります。高齢者、視覚に障害のある方、母語が異なる方が、同じソフトウェアを同じ深さで使える未来が、いよいよ視野に入ってきました。テクノロジーが「人類の進化」に寄り添うとはどういうことか—音声AIの進化は、その問いに具体的な答えを与え始めています。

最後に強調したいのは、OpenAIの直前モデル「gpt-realtime-1.5」が公開されたのは2026年2月23日であり、わずか約2か月半でGPT-Realtime-2が登場している点です。さらに遡れば、初代の「gpt-realtime」は2025年8月のリリースですから、約9か月で世代を2つ重ねた計算になります。音声AIの進化サイクルが、テキストAIに追いつき始めた——この事実こそ、いま注視すべき潮流と言えるでしょう。

【用語解説】

GPT-Realtime-2
OpenAIが2026年5月に発表した、GPT-5クラスの推論能力を持つリアルタイム音声モデル。会話を継続しながら推論・ツール呼び出し・訂正対応を行えるのが特徴である。

GPT-Realtime-Translate
70以上の入力言語を13の出力言語へ、話し手のペースを保ちつつ翻訳するライブ音声翻訳モデルである。

GPT-Realtime-Whisper
話している最中にリアルタイムで文字起こしを行う、低レイテンシのストリーミング音声認識モデルである。

gpt-realtime-1.5
2026年2月23日にOpenAIがRealtime APIで提供を開始した直前世代の音声モデル。指示追従、ツール呼び出し、多言語対応の精度向上を主眼に据えていた。GPT-Realtime-2は本モデルを基準にベンチマーク改善幅が示されている。

gpt-realtime(初代)
2025年8月にOpenAIが発表した、Realtime API向けの最初の汎用音声モデル。本モデルがGPT-Realtimeシリーズの起点となった。

コンテキストウィンドウ
AIモデルが一度に保持・参照できる情報量のこと。トークン(単語や記号の最小単位)で表現される。今回32Kから128Kへ4倍に拡張された。

推論努力レベル(reasoning effort)
モデルがどの程度深く考えるかを開発者が指定できる仕組み。minimal、low、medium、high、xhighの5段階があり、応答速度と思考の深さのバランスを調整できる。

Big Bench Audio
音声入力に対応した言語モデルの推論能力を評価するベンチマーク。GPT-Realtime-2(high)は96.6%を記録した。

Audio MultiChallenge
音声対話システムにおけるマルチターン会話の知性、つまり指示追従、文脈統合、自己一貫性、自然な発話訂正への対応力を評価するベンチマークである。

Voice-to-Action / Systems-to-Voice / Voice-to-Voice
OpenAIが提示する音声AIの3つの活用パターン。順に「音声からタスク実行」「システムから音声ガイダンス」「音声同士の翻訳・連携」を指す。

プリアンブル(preambles)
本回答の前に挟む「ちょっと確認しますね」などの短いつなぎ発話のこと。エージェントが要求を処理中であることをユーザーに伝える役割を持つ。

Fair Housing(公正住宅取引法)
米国における住宅取引での差別を禁ずる連邦法。Zillowが音声エージェントの法令遵守要件として言及している。

EUデータ・レジデンシー
EU圏内のユーザーデータをEU域内で保管・処理する仕組み。GDPRなどEUの規制対応に必須となる要件である。

WER(Word Error Rate / 単語誤り率)
音声認識の精度を測る指標で、値が低いほど高精度を示す。BolnaAIによる検証では他モデルより12.5%低いWERを達成した。

【参考リンク】

OpenAI 公式サイト(外部)
ChatGPTやGPTシリーズなどを開発するAI研究企業。今回の音声モデル発表元である。

OpenAI Developer Platform – Realtime API ドキュメント(外部)
Realtime APIの公式ガイド。音声エージェントや翻訳・文字起こしの実装方法を解説している。

OpenAI API Changelog(外部)
OpenAI APIの更新履歴公式ページ。gpt-realtime-1.5のリリース記録などが記載されている。

Zillow(外部)
米国最大級の不動産情報プラットフォーム。GPT-Realtime-2による音声アシスタントを構築中である。

Deutsche Telekom(外部)
ドイツの通信大手。多言語音声サポート体験の構築にGPT-Realtime-Translateを活用している。

Priceline(外部)
オンライン旅行代理店。音声で旅程全体を管理する体験の実現を目指している。

BolnaAI(外部)
インドの音声AIスタートアップ。ヒンディー語、タミル語、テルグ語の音声AI開発に取り組む。

Vimeo(外部)
動画プラットフォーム。製品紹介動画のリアルタイム多言語翻訳にGPT-Realtime-Translateを活用。

Glean(外部)
エンタープライズ向けAI検索プラットフォーム。GPT-Realtime-2の初期テスト企業の一つである。

Intercom(外部)
カスタマーサポート向けAIプラットフォーム。音声エージェント実装企業の一つである。

Genspark(外部)
AI検索エンジン。GPT-Realtime-2の初期導入企業として名を連ねている。

【参考記事】

OpenAI unveils trio of realtime audio models to power next-gen voice agents(Neowin)(外部)
Big Bench Audio 96.6%対81.4%、Audio MultiChallenge 48.5%対34.7%など改善幅を整理した解説記事。

OpenAI’s new voice model brings GPT-5-level reasoning to real-time conversations(The Decoder)(外部)
5段階の推論努力レベルが開発者に与える設計自由度をベンチマーク数値とともに分析している。

OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions(Interesting Engineering)(外部)
15.2%・13.8%の改善幅とGoogle Gemini Liveとの競合関係、戦略の差別化ポイントを取り上げている。

OpenAI releases gpt-realtime-1.5 for voice AI developers(Perplexity Page)(外部)
gpt-realtime-1.5が2026年2月23日にRealtime APIへ投入されたことを伝える記事。

Use the GPT Realtime API for speech and audio with Azure OpenAI(Microsoft Learn)(外部)
Azure OpenAI公式ドキュメント。「gpt-realtime-1.5(2026-02-23)」とリリース日が明記されている。

GPT-Realtime-2: OpenAI Quadruples Context Window and Brings GPT-5 Reasoning to Voice AI(AIxploria)(外部)
コンテキストウィンドウ4倍拡張の意義と、音声AI分野の進化サイクル加速について論じている。

OpenAI Launches GPT Realtime 2 for Smarter Voice AI(SQ Magazine)(外部)
70言語入力・13言語出力の仕様、Deutsche TelekomとVimeoのテスト状況を整理した記事。

【関連記事】

xAI「Custom Voices」発表 1分の音声で本人クローン、二段階検証で他人の声を構造的に防ぐ
2026年5月4日公開。本記事と同週に発表された競合xAIの音声AI記事。なりすまし防止の構造的対策を解説しており、本記事のボイスフィッシングリスク論点と補完関係にある。

Grokボイスエージェント API登場—xAIが音声AI市場に本格参入、業界最安値の価格設定で競合を圧倒
2025年12月18日公開。GPT-Realtime-2の最大の競合製品。Big Bench Audioベンチマークや、OpenAI Realtime APIの旧価格(1分0.10ドル)との比較記述があり価格動向の理解に役立つ。

OpenAI:新音声モデル「gpt-4o-transcribe」登場 – わずか数秒でテキストアプリに音声機能を追加可能に
2025年3月21日公開。GPT-Realtime-Whisperの直接の系譜上にあるOpenAI先行モデル。WER(単語誤り率)やAgents SDKなど、本記事と共通する用語が多く解説されている。

【編集部後記】

音声でソフトウェアを操作する未来は、もうSFの話ではなくなりつつあります。運転中、移動中、両手がふさがった時——これまでデジタルから一歩離れていた時間が、これから何に変わっていくのか。みなさんならどんな場面で「声で済ませられたら」と感じますか。逆に、声で済ませたくない場面もきっとあるはずです。便利さと心地よさのちょうどいい境界線を、一緒に探っていけたら嬉しく思います。気になった事例や疑問があれば、ぜひお聞かせください。

音声AIの進化は心が躍る一方で、自分の声がどう扱われるのかという不安も同時に育っていく領域です。みなさんと一緒に、その「期待」と「不安」のバランスを丁寧に見つめていけたらと思っています。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。