何が変わったか
これまで Grok シリーズは GPT や Claude の主力モデルに性能で見劣りしつつも、xAI 独自の主力 LLM として一定のポジションを占めてきた。Artificial Analysis の Intelligence Index ではトップ層に届かず、価格は中位帯にとどまっていた。
5月2日、xAI は Grok 4.3 を投入し、入力トークン価格を約40%、出力トークン価格を約60% (それぞれ前モデル Grok 4.20 比) 引き下げ、性能53点・ベンチマーク総額395ドルで「Pareto frontier」 (性能とコストの最適バランス) に食い込む位置に踏み込んだ。同時に Grok Imagine の “Agent Mode” ベータを公開し、単発プロンプトではなく動画・マンガ・商品ストーリーといった長尺の創造プロジェクトを AI エージェントが計画・生成・編集する流れを提供する。
社会にどんな影響があるか
主たる影響として、AI モデル市場の競争軸が「最高性能の一点突破」から「Pareto 最適化」、つまり性能とコストの両立点をどこに引くかという軸に再編される。GPT-5.5 や Claude Opus 4.7 のようなフラグシップを必要としない用途 — エージェントによる Web 検索、コード実行、Excel / PDF / PowerPoint 自動生成、RAG など知識労働タスク — では、Grok 4.3 のような中位性能・低コストモデルが本命候補になる。開発者・スタートアップにとって「中位帯で API 単価が10分の1になる」変化は、エージェント運用コストの設計を組み替えるレバーになる。
一方で副作用として、ベンチマーク以外の実環境では実用性に未検証部分が残る。Andon Labs の自販機エージェントタスクでは「行動するより数日眠る」傾向が報告され、Val’s AI のテストでも CaseLaw / CorpFin で1位を取りつつ汎用コーディングや難問数学では13位と評価がぶれている。価格・性能の Pareto 上にあることと、エージェントとして稼働してくれることは別物であり、ユースケース別の検証が必須。
俺にどんな影響があるか
PRES の事業運用で Claude Opus 4.7 を主力に使っているが、エージェント基盤の設計を考えるとき「Pareto 最適点に何を置くか」の問いはより重要になる。Grok 4.3 のような中位性能・低単価モデルの登場は、エージェント運用の設計を「単一モデル統一」から「タスク別にモデルを使い分ける階層化」に動かす圧力を強める。コスト感度が高い背景処理・バルク処理は安価モデル、判断クリティカルなタスクのみ高性能モデル、という階層化を前提にした思想・アーキテクチャを早めに整理しておきたい。
ニュースの詳細
xAI 開発者の Eric Jiang が X 投稿で発表。Grok 4.3 は1Mトークンのコンテキストウィンドウ、100トークン/秒の生成速度、入力 $1.25 / 出力 $2.50 (per Mtok)、ナレッジカットオフは2025年12月。reasoning がデフォルト組み込みで、すべてのリクエストで「考えてから答える」挙動になる (reasoning トークンは通常出力と同単価で課金)。アクセス経路は OpenRouter、xAI API、Hermes エージェント。
GDPval-AA (実世界の知識労働タスクを測るベンチマーク) では Elo スコアを321点上げて1,500点に達し、Google Gemini 3.1 を上回ったが OpenAI GPT-5.5 にはなお276点差で届かず。
Grok Imagine Agent Mode は grok.com/imagine の Web インターフェースで利用可能。入力欄左下のトグルで切り替えで、有料アカウント必須。