OpenAI、GPT-5 級推論を音声で動かす GPT-Realtime-2 と翻訳・文字起こし専用モデルを公開

音声モデルがテキスト系統と同等の推論能力に追いつくことで、UI の主役は GUI から音声インターフェイスへ徐々に重心移動する

何が変わったか

これまで ChatGPT の音声モードや Gemini Live のリアルタイム会話機能は、テキスト推論モデルと比較して大幅に性能が劣っていた。複雑な指示理解、多回会話の文脈追跡、ツール呼び出しの並列性などで「テキスト版の劣化版」として位置づけられてきた。

OpenAI は Realtime API 上で 3 つの新モデル — GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を公開し、GPT-Realtime-2 は GPT-5 と同等の推論能力をリアルタイム音声で発揮する。コンテキストウィンドウは 32K → 128K、Big Bench Audio で 81.4% → 96.6%、Audio MultiChallenge で 34.7% → 48.5% と前世代を大きく上回る。Deutsche Telekom がカスタマーサポートで先行採用、ChatGPT 音声モードへの搭載も予告された。

社会にどんな影響があるか

音声がテキストと同等の AI 体験を提供できるようになった結果、コールセンター・運転中音声操作・現場業務 (医療・物流・建設) といった「画面を使えない/使いたくない場面」での AI 浸透が一気に進む。Voice-to-Action (音声で要求して実行)・Systems-to-Voice (システム文脈を音声で案内)・Voice-to-Voice (異言語ライブ会話) の 3 パターンに分化することで、UI 設計の引き出しが増える。70 言語入力 / 13 言語出力の翻訳モデルは、観光・教育・国際営業の現場での同時翻訳活用を実用域に押し上げる。

副作用として、5 段階の reasoning intensity (minimal/low/medium/high/xhigh) を開発者が選べる仕様は、レイテンシとコストのトレードオフを設計者が能動的に管理する責任を伴う。デフォルト設定 “low” のままでは複雑な要求で精度が出ず、高設定では遅延・コストが増える。

俺にどんな影響があるか

PRES の中堅企業向けデジタル化支援文脈では、コールセンターや営業現場の「音声経由の業務 AI 化」がこれまで「PoC レベルの精度しか出ない」と評価されていたが、ベンチマーク値の更新と Deutsche Telekom 採用事例によって導入提案の正当性が大きく強化される。研究室シーズ (例: 音声処理・対話システム研究) と組み合わせれば、業界特化型音声 AI エージェント (法務・会計・医療事務など) のサービス設計が現実味を帯びる。

ニュースの詳細

GPT-Realtime-2 の主要機能:

コンテキストウィンドウ: 32K → 128K トークン
並列ツール呼び出し対応
preamble (一言挿入) による「思考時間」確保: “let me check that” / “one moment”
エラー時もサイレントにせず “I’m having trouble with that right now” のように発話
専門用語・固有名詞・医療用語の聞き取り精度向上
トーン制御: 問題解決中は冷静、フラストレーションを感じているユーザには共感的、成功時は明るい
reasoning intensity を 5 段階 (minimal/low/medium/high/xhigh) で開発者が選択可能

ベンチマーク:

Big Bench Audio: 81.4% → 96.6% (high 設定)
Audio MultiChallenge: 34.7% → 48.5% (xhigh 設定)

GPT-Realtime-Translate: 70+ 入力言語 / 13 出力言語、リアルタイム同時翻訳。文脈切替・地域訛り・専門用語に対応。Deutsche Telekom がカスタマーサポートで採用中。

GPT-Realtime-Whisper: 低遅延ストリーミング文字起こし。会議・教室・ライブ字幕・後続ワークフロー (営業・採用・医療等) を狙う。

価格 (Realtime API): GPT-Realtime-2 は audio input $32/1M tokens (cached $0.40/1M)、output $64/1M。Translate は $0.034/分、Whisper は $0.017/分。EU データレジデンシー対応。

キーワード解説

Realtime API とは、OpenAI が提供する WebSocket / WebRTC ベースの低遅延音声 API。テキスト系の Chat Completions API と異なり、音声入力をストリームで受け取り、音声を含むレスポンスをストリームで返す。アプリケーション側は割り込み・短い応答・ツール呼び出しの統合を扱う必要がある。

Big Bench Audio とは、音声入力に対する LLM の推論能力を測るベンチマーク。テキスト版 BIG-bench を音声入力に拡張したもので、Artificial Analysis などが運用する。音声から問題を聞き取り、推論し、音声で答える一連のタスクを評価する。

Reasoning intensity (推論強度) とは、OpenAI / Anthropic が GPT-5 / Claude Opus 4.6 で導入した、推論ステップの深さ (= 投入する計算量) を 5 段階で開発者が選択できる仕様。簡単なクエリは “minimal” で低レイテンシに、難しいクエリは “xhigh” で時間と費用をかけて深く考えさせる。

Voice-to-Action / Systems-to-Voice / Voice-to-Voice とは、OpenAI が今回提唱した音声 AI の 3 つのインタラクションパターン。音声で要求 → AI が実行、システム文脈 → 音声で案内、人と人が音声 → AI が翻訳してリレーする、それぞれを基本パターンとして組み合わせる設計指針。

source: The Decoder , OpenAI: Advancing voice intelligence with new models in the API