何が変わったか
これまでは、大規模言語モデル (LLM, Large Language Model) は新しいベンチマークが出るたびに急速にスコアを伸ばし、MMLU や HumanEval などで人間水準に到達してきた。推論能力は順当に向上しているという見立てが業界の前提だった。
ARC Prize Foundation の今回の分析で、インタラクティブなゲーム環境を扱う ARC-AGI-3 では GPT-5.5 が 0.43%、Opus 4.7 が 0.18% という極端な低スコアに沈み、両モデルが共有する3つの体系的エラーが特定された。標準ベンチマークで見えていた進歩は、未知環境への適応的推論ではなく既知パターンの活用にすぎなかった可能性が示された。
社会にどんな影響があるか
主たる影響として、「ベンチマークのスコア向上=知能の向上」という暗黙の等式が崩れる。フロンティアモデルの能力評価には、生態学的妥当性 (実環境に近い設定) を備えたベンチマークを採用しないと、投資判断や導入判断が見せかけのスコアに引きずられる。
一方で副作用として、ARC-AGI-3 のような抽象ゲーム環境は実ビジネスのワークフローと乖離している可能性もある。この種のベンチマークを過度に重視すると、コード生成や要約といった既に商用価値を生んでいる能力を軽視する判断に転びかねない。
俺にどんな影響があるか
産学連携の現場では「研究室の技術を企業に橋渡しする」過程で、未知ドメインを既知のフレームに当てはめてしまう翻訳のリスクが常にある。Opus 4.7 が誤った仮説に過剰自信を持ち、GPT-5.5 がそもそも圧縮できないという両極のエラーは、俺自身がレンタル DX 推進室サービスを設計するときに参照すべき認知のメタファーでもある。
知らない研究領域に出会ったとき「Tetris に似ている」と早合点する Opus 型の失敗と、抽象化を諦めて細部に溺れる GPT-5.5 型の失敗、どちらも産学連携のヒアリング現場で起こりうる。事業ドメインの圧縮の質を意識的にチェックする習慣を持ちたい。
ニュースの詳細
ARC Prize Foundation は GPT-5.5 と Opus 4.7 が ARC-AGI-3 で生成した 160 件のリプレイと推論トレースを精査した。GPT-5.5 は試行コスト約1万ドルで 0.43%、Opus 4.7 は 0.18% に終わった。
両モデルに共通する最頻出エラーは「局所的な効果は把握できるが、それを統合した世界モデルを構築できない」という構造的失敗である。たとえばあるアクションがオブジェクトを回転させることは認識できても、その回転が次の入力先を決めることや、回転前にオブジェクトを整列させる必要があることまでは推論が届かない。
第二のエラーは未知環境を訓練データの既知ゲーム (Tetris、Frogger、Sokoban、Breakout、Pong、Boulder Dash) と取り違えるパターン。第三のエラーは圧縮戦略の差で、Opus は観察を「自信に満ちた誤った理論」に圧縮するのに対し、GPT-5.5 はそもそも観察の圧縮自体に困難を示した。