OpenRouter分析、GPT-5.5の実コストはGPT-5.4比で49〜92%増、応答長の変化が短文入力で価格を押し上げ

リスト価格上昇とトークン消費パターン変化が重なり、IPO 準備期に入った OpenAI と Anthropic の価格は構造的な上昇局面へ

何が変わったか

これまで GPT-5.4 の API 価格は入力 100 万トークンあたり 2.50 ドル、出力 15 ドルだった。

直近の GPT-5.5 価格改定で、入力 100 万トークンあたり 5 ドル、出力 30 ドルへと公式リスト価格が倍になった。OpenAI は「短い応答で部分的に相殺される」と説明していたが、OpenRouter が 2026 年 4 月の実利用ログを分析した結果、入力長別の実コスト増加率は 49〜92% に達した。短文入力 (2K トークン未満) では応答長がほぼ変わらず、コストが約 2 倍に近づく一方、中尺入力 (2K〜10K) では応答が 52% 長くなり、長尺入力 (10K 以上) ではむしろ応答が 19〜34% 短くなる、という非対称な変化が観測されている。

社会にどんな影響があるか

主たる影響として、短文プロンプトで多数のリクエストを投げるユースケース (チャットボット・問い合わせ自動応答・コンテンツ生成 SaaS) のコスト構造が、見かけ上の倍以下のリスト価格改定で実質倍増する。アプリ事業者の損益分岐点がプロンプト設計の最適化に強く依存するようになり、「プロンプトを長くして応答を短くする」というカウンターインチュイティブな最適化が経営課題化する。

副作用として、Artificial Analysis が以前報告した「20% 値上げ」という見立てとの乖離が露呈した。あちらはベンチマーク環境での測定で、実運用の応答長分布を反映していない。同じ動きは Anthropic の Opus 4.7 でも観測されており (トークン消費増を理由に 30〜40% の値上げ)、OpenAI と Anthropic 双方が IPO へ向かう局面で「価格設定の透明性」という評価軸が投資家・顧客双方から強まる可能性がある。

俺にどんな影響があるか

PRES のレンタル DX 推進室サービスで生成 AI を組み込む際、コストモデルを「API トークン単価 × 想定ボリューム」で見積もる従来のやり方が機能しにくくなる。短文入力に偏る業務 (要約・分類・タグ付け) の場合、新モデルへの切り替えで実コストがほぼ倍になりうるため、モデル選定とプロンプト設計をセットで定期見直しするオペレーション設計が必要になる。同時に、Claude / GPT の価格上昇圧力は、オープンウェイト系モデル (Qwen・Llama・Mixtral 等) を組み合わせるハイブリッド構成の経済合理性を押し上げる。

ニュースの詳細

OpenRouter のデータでは入力長帯ごとの実コスト変化が以下の通り (平均 1M トークンあたり) :

Input length	5.4 平均 ($/M tokens)	5.5 平均 ($/M tokens)	増加率
< 2K tokens	$4.89	$9.37	+92%
2K - 10K	$2.25	$3.81	+69%
10K - 25K	$1.42	$2.15	+51%
25K - 50K	$1.02	$1.65	+62%
50K - 128K	$0.74	$1.10	+49%
128K+	$0.71	$1.31	+85%

短文入力が最大の値上げ、長文入力でも 49% 増という結果になり、入力長による段階的な負荷分布で価格を均すような構造には設計されていない。Artificial Analysis が以前報告した「ベンチマーク上の 20% 値上げ」とは異なる結果は、実運用と評価環境の応答長分布の違いに起因している。

Anthropic 側でも Opus 4.7 の「フラット価格 (リスト不変)」発表とは別に、初期トークン消費量の計測値が示す通り、実コストは 30〜40% 上昇している。両社とも IPO 準備段階に入っており、収益化圧力が API 価格に転嫁される構造は当面続く見通し。

キーワード解説

トークン (token) とは、大規模言語モデルが入出力を扱う最小単位。英文では概ね 4 文字 / 0.75 単語に相当し、日本語ではかな 1 文字が 1〜2 トークンに相当することが多い。API 料金は「入力トークン数」「出力トークン数」それぞれに単価を掛けて算出される。

OpenRouter とは、複数の LLM プロバイダ (OpenAI・Anthropic・Google など) を統一 API で集約・転送するゲートウェイサービス。実利用ログを横断的に蓄積するため、各モデルの実コスト・レイテンシ・成功率を比較する独立データソースとして信頼されている。

応答長 (response length) とは、モデルが生成する出力のトークン数。API 課金では出力単価が入力単価の数倍に設定されていることが多く、応答長の変化は実コストへの影響が大きい。新世代モデルでは「考えてから答える」設計で応答が長くなる傾向があり、価格戦略と密接に絡む。

source: The Decoder , OpenRouter (GPT-5.5 トークナイザー分析)