何が変わったか
これまでの音声 AI システム (OpenAI GPT-Realtime や Google Gemini Live) は、音声活動検出器などの外付け「ハーネス」が話者のターン終了を判定してから本体モデルに発話全体を渡す構造で、モデルが発話中は新しい入力をブロックしていた。
Thinking Machines Lab は元 OpenAI CTO の Mira Murati が率いるスタートアップで、外付けハーネスを廃し、200 ミリ秒ごとに音声・映像・テキスト入力と音声・テキスト出力を同時刻に交互生成する「Interaction Models」を初の自社モデルとしてリサーチプレビュー公開した。モデル名は TML-Interaction-Small、276B パラメータの MoE で 12B がアクティブ。FD-bench v1.5 では GPT-Realtime-2 や Gemini-3.1-flash-live を上回り、応答遅延 0.40 秒で GPT-Realtime-2 の 1.18 秒に対し約 3 倍高速。
社会にどんな影響があるか
主たる影響として、音声 AI のインタラクション設計が「人間がターン区切りを意識して話す」前提から「機械が割り込み・同時発話・視覚反応まで自然に扱う」前提へと移行する。リアルタイム翻訳・コードレビュー時の即時指摘・接客アシスタントなど、ターン制では実装できなかったユースケースが現実的になる。
副作用として、Thinking Machines Lab は 12 億ドル評価で 20 億ドルを 2025 年 7 月に調達したが、その後の 500 億ドル評価ラウンドが 2025 年内に成立せず主要社員流出が起きており、技術リードと事業成立の解離が広がっている。
俺にどんな影響があるか
PRES の事業設計においては、研究室技術を企業に渡す UX の核に対話インターフェースが入りうる。ターン制対話を前提に音声 UX を作ると、ラボのリアルタイム実験補助のような「割り込みが頻繁な現場」では使い物にならない。Interaction Model 系の登場で、「研究室の AI 助手」という UX 仕様の射程が広がる。
ニュースの詳細
Interaction Model は時間軸整列マイクロターン (time-aligned micro-turns) と呼ぶ方式を採用し、入出力トークンストリームが同じクロックサイクルを共有する。これによって沈黙・割り込み・同時発話をモデル自身が選択できる。重い推論やツール使用・Web 検索は別の非同期バックグラウンドモデルに委譲し、両者は同じ会話コンテキストを共有して結果を割り込ませる。Audio MultiChallenge では 43.4% のスコアで競合の fast variant を上回るが、GPT-Realtime-2 の xhigh thinking モード (48.5%) には及ばない。Thinking Machines が独自に作成したベンチ TimeSpeak/CueSpeak (時間認識) や RepCount-A/ProactiveVideoQA/Charades (視覚プロアクティビティ) では、既存モデルがほぼ機能しないと報告。Mira Murati が 2025 年 2 月に共同創業し、これまでに Tinker (open-weights LoRA fine-tune API) を提供していたが、自社モデルの公開は今回が初。
キーワード解説
Mixture-of-Experts (MoE) とは、入力に応じて専門サブネットワーク (エキスパート) を選択的に活性化させる大規模モデル構造。全パラメータを毎回計算するのではなく一部のみ使うため、総パラメータ数を増やしつつ推論コストを抑えられる。TML-Interaction-Small の 276B 総パラメータ・12B アクティブの比率はこのアプローチの典型例。
Bitter Lesson とは、Richard Sutton が 2019 年のエッセイで示した AI 研究の経験則で、人間が手作りした特化型コンポーネントは長期的には汎用学習アルゴリズム + 計算力の総量に敗ける、という主張。Thinking Machines は音声 AI のハーネス (VAD などの手作りパイプライン) もこの法則の対象だと位置づけている。