MIT、LLM のスケーリング則を「重ね合わせ表現」で説明、幅 m に対し誤差は 1/m で減少

AI 開発投資の根拠だった「経験則としてのスケーリング則」が幾何学的根拠を得て、モデル幅とデータ分布から損失を逆算する設計が現実的になる

何が変わったか

LLM の性能がモデルサイズに対しベキ乗則で改善する「ニューラルスケーリング則」(Kaplan ら 2020、Chinchilla 2022) は経験則として確立されていたが、なぜそうなるのかの理論的根拠は長く未解決だった。

MIT の Yizhou Liu, Ziming Liu, Jeff Gore による論文 “Superposition Yields Robust Neural Scaling” (arXiv:2505.10465) が NeurIPS 2025 で Best Paper Runner-Up に選ばれ、The Decoder が5月3日に詳報した。論文は「LLM は次元数より多くの概念をベクトルの重ね合わせ (superposition) で詰め込んでおり、概念ベクトルの軽い干渉から生じる誤差は、モデル幅 m に対しほぼ 1/m で減少する」という幾何学的関係を導出し、観測されてきたベキ乗則的なスケーリング曲線を理論的に再現した。OPT・GPT-2・Qwen2.5・Pythia の出力層を解析して、いずれも実モデルが「強い重ね合わせ」(strong superposition) 領域で動作することを実証している。

ニューラルネットワークにおける重ね合わせ表現の概念図 — モデルは次元数より多い特徴をベクトルの重ね合わせで保持する。重なりが小さい「強い重ね合わせ」領域では、幅 m を倍にするとノイズ由来の誤差がおよそ半分になる。

社会にどんな影響があるか

主たる影響として、AI スケーリング投資の意思決定が「経験則の外挿」から「幾何学的根拠付きのモデリング」に格上げされる。フロンティアラボ (OpenAI、Anthropic、Google DeepMind、xAI、Meta) はこれまで数十億ドル規模の事前学習投資を、過去のスケーリング曲線の外挿に依存して正当化してきた。本論文の枠組みでは、概念分布が既知ならモデル幅から損失を逆算でき、「次世代モデルでどれだけ性能改善が見込めるか」の事前予測精度が上がる。資本配分・データセンター投資 (Anthropic-Google-Broadcom 数 GW、Anthropic-Amazon 5 GW など最近の発表) の合理化が一段進む。

一方で副作用として、論文が示す 1/m スケーリングはあくまで「強い重ね合わせ」領域の理想化であり、実モデルではアーキテクチャ・学習データ分布・最適化アルゴリズムが影響して実効スケーリング指数はずれる。「理論で説明できたから外挿は安全」と短絡すると、Kaplan vs Chinchilla で起きたような校正誤差を再演しかねない。

俺にどんな影響があるか

PRES のサービス設計に直接の影響はないが、「ベキ乗則として観測されてきた現象を、幾何学的な情報詰め込み構造で説明し直す」というこの論文の手法は、思想・組織論・経営論で「経験則を理論化する」一つの型として参考になる。市場のベキ乗則・組織の規模効果・産学連携の成果分布など、ベキ乗則的に振る舞う現象は多いが、それを「単なる外挿可能なカーブ」ではなく「内部の幾何学的構造の帰結」として捉え直すと、介入レバーが見える。

ニュースの詳細

論文は重ね合わせの強度を weight decay (重み減衰) で制御することで、ニューラルネットの損失と幅・概念分布の関係を系統的に検証。2つの領域を区別する。

弱い重ね合わせ (weak superposition) では、モデルは最頻概念だけをクリーンに保持し、稀な概念は捨てる。誤差は捨てられた概念の頻度分布に依存し、概念分布自体がベキ乗則のときだけ損失もベキ乗則になる (“power law in, power law out”)。

強い重ね合わせ (strong superposition) では、モデルがすべての概念をベクトルの重ね合わせで保持し、誤差は重なりノイズから生じる。ここで損失は幅 m に対し 1/m に従い、概念分布の形状によらずベキ乗則的なスケーリング曲線が出現する。OPT・GPT-2・Qwen2.5・Pythia の解析からは、現代 LLM はこの強い重ね合わせ領域に位置することが確認された。コードは GitHub の liuyz0/SuperpositionScaling で公開。

source: The Decoder , arXiv 2505.10465 (Superposition Yields Robust Neural Scaling) , NeurIPS 2025 Poster (Best Paper Runner-Up) , GitHub: liuyz0/SuperpositionScaling