METR、Claude Mythos Previewは時間軸16時間で評価上限に達したと発表、Palo Alto NetworksはAIによる攻撃側の自走化を警告

AI 評価機関と防御企業の双方が「ベンチマークがモデルに追いつかなくなった」と認め、攻撃側の能力が手動ペンテスト 1 年分を 3 週間で達成する局面に入った

何が変わったか

これまでフロンティア AI モデルの能力は、AI リスク評価機関 METR の「時間軸 (time horizon)」指標で安定的に測定されてきた。これは「人間にとって何時間かかるタスクをモデルが 50% の確率で完遂できるか」という尺度である。

直近の評価で、Claude Mythos Preview は時間軸 50% 信頼区間 8.5〜55 時間 (中央値 16 時間以上) という値を示し、METR の現行 228 タスク評価スイートの測定可能範囲をはみ出した。同スイートで「16 時間以上」に分類されるタスクは 5 つしかなく、METR は「この範囲では測定が不安定で、定量比較や外挿に向かない」と認めている。同時にサイバーセキュリティ企業 Palo Alto Networks は、Mythos・GPT-5.5-Cyber・Claude Opus 4.7 の早期評価結果として「能力の段階的飛躍 (a step-change in capability)」を観測したと発表した。

AIモデルの時間軸進化グラフ — AI モデルの時間軸は指数関数的に伸びている。Mythos Preview は 16 時間以上の測定信頼性が落ちる領域に最初に到達した (Image: METR, CC-BY)

社会にどんな影響があるか

主たる影響として、評価インフラ (METR の標準ベンチマークなど) がモデル能力の進化速度に追いつかなくなり、「安全性レビューが追従できないまま能力デプロイが進む」というガバナンス上の盲点が生まれる。METR は「より長いタスクを含む新しい評価手法を開発中」と述べているが、その整備にはモデルリリースより時間がかかる構造的な遅れがある。

副作用として、攻撃側の進化速度が異常に速まる。Palo Alto Networks の実測では「フロンティアモデル群による 3 週間の解析が手動ペネトレーションテスト 1 年分を上回る」「初期アクセスから情報窃取までの所要時間が 25 分まで縮む」と報告されており、防御側の対応サイクル (パッチ・ハードニング・教育) との非対称性が広がっている。同社が Mythos リリース直後に予測した「攻撃者が同等能力を獲得するまで 6 ヶ月」という見立ては、すでに「大幅に短縮された」と修正されている。

俺にどんな影響があるか

PRES が産学連携で扱う技術の一部にはセキュリティ脆弱性検出技術やコード解析技術が含まれる。これらが防御側に提供されると同時に攻撃側にも転用される構造は、レンタル DX 推進室サービスの倫理ポリシーで明確に扱うべき論点となる。デザイン視点では、「人間が監督できる時間軸」と「AI が自走できる時間軸」の乖離は、AI プロダクトの UI/UX で「人間の関与点 (human-in-the-loop checkpoint)」をどこに置くかという設計判断と直結する。

ニュースの詳細

METR の時間軸指標は、機械学習タスクのトレーニング (約 45 分) や敵対的に堅牢な画像モデルのトレーニング (約 4 時間) などをリファレンスポイントとして使う。Mythos Preview はこれらをすべて超え、評価スイート全体で「明確に区別できる」程度の能力差は引き続き測れるが、「定量推定の信頼区間」が広すぎて意味のある外挿ができない領域に入った。

Palo Alto Networks は「現行フロンティアモデルのコーディング効率改善は約 50%」「ベンチマーク上は緩やかな伸びに見えるが、実務では『有用なアシスタント』から『自律オペレーター』への閾値越え」と評している。攻撃面の拡大要因として「ローカル AI エージェントの普及で、すべてのデスクトップが事実上サーバ化する」「組織が従業員の生成・デプロイしたコードを可視化できていない」も挙げている。

過去の関連検証として、英国 AI Security Institute (AISI) は Mythos Preview がエンタープライズネットワークをエンドツーエンドで侵害可能だと確認、OpenAI の GPT-5.5 は同種の多段階企業攻撃シミュレーションを Mythos と同等以上の水準でクリアしている。同時に Mozilla は Mythos Preview を使って Firefox の脆弱性 271 件を発見し、4 月だけで 423 件の修正記録を達成しており、防御側の AI 活用も加速している。

キーワード解説

時間軸 (time horizon) とは、METR が定義する AI 能力指標。「人間が完遂するのに X 時間かかるタスクをモデルが 50% の確率で成功させる」という形で能力を時間スケールに射影し、過去モデルとの直接比較を可能にする。指数関数的な伸びを観測しやすい。

ペネトレーションテスト (penetration testing) とは、攻撃者の視点でシステムを実際に攻撃し脆弱性を洗い出す手法。専門のレッドチームが手動で行うのが従来手法で、業界相場では年間契約数百万円〜数千万円規模。AI が代行する局面では、コスト構造と頻度が根本から変わる。

ゼロデイ脆弱性 (zero-day vulnerability) とは、ベンダーが認知していない・パッチが未公開のソフトウェア脆弱性。発見から悪用までの猶予期間 (0 日) を意味し、攻撃側の発見スピードが防御側の修正スピードを上回るほどリスクが累積する。

source: The Decoder , Palo Alto Networks (Frontier AI Defense) , METR (X / Mythos 評価)