Amazon 社員、社内 AI リーダーボード上位を狙うため不要タスクを AI に自動化する「tokenmaxxing」が常態化

「AI 利用率」を KPI 化すると指標自体が目的化し、開発生産性の代理指標は容易にゲーム化される構造が露わになる

Amazon 社員、社内 AI リーダーボード上位を狙うため不要タスクを AI に自動化する tokenmaxxing が常態化

何が変わったか

これまで Amazon は社内 AI ツール「MeshClaw」を提供し、社員がコードデプロイ・メールトリアージ・Slack 操作などを AI エージェントに任せられるようにしてきた。さらに今年初頭、80% 以上の開発者が毎週 AI を使うことを目標化し、社内リーダーボードでトークン消費量を可視化した。

Financial Times の報道で MeshClaw を使って意味のないタスクを意図的に自動化しトークン消費量を水増しする「tokenmaxxing」と呼ばれる行動が社内で広がっていることが明らかになった。「使用量は人事評価に直接は反映されない」と公式には説明されているが、社員は「マネージャーは見ている。可視化が始まると過度な競争が起きる」と証言。Meta でも同様の現象が起きている。

社会にどんな影響があるか

主たる影響として、「AI ツール利用率」をビジネスメトリクスに据える設計が、Goodhart の法則 (指標が目標化すると指標として機能しなくなる) の典型例として顕在化した。トークン消費量は実生産性の代理指標としてはほぼ無意味で、これを KPI 化したまま放置すれば組織は計算リソースを純粋に浪費する方向に最適化されてしまう。

副作用として、AI 補助の真の価値 (タスク完了の質・時間・コスト) を計測する代替指標の設計が急務になる。生産性測定企業 DX の調査では、ソフトウェア開発者の 90% 以上が AI コーディング補助を月 1 回以上使い、エンドユーザー向けコードの 1/4 以上が AI 生成というデータがあるが、これらと実生産性の関係は確立していない。

俺にどんな影響があるか

PRES の経営でも AI 利用率という代理指標を社内 KPI に置く誘惑がある。Amazon の事例は「AI 利用そのものを目的化した瞬間に指標が壊れる」ことを示しており、PRES では成果ベース KPI を主軸に据えた上で AI 利用率は内部観測値に留めるのが妥当という結論を補強する。研究室 DX 提供時も、クライアント企業に「AI 利用率」を提案 KPI として渡すのは避けるべき。

ニュースの詳細

「使うプレッシャーがあまりに強い。MeshClaw を使ってトークン使用量を最大化している人がいる」と Amazon 社員が FT に語った。MeshClaw は AI エージェントによる開発自動化を促進する社内ツールで、Slack 連携やコードデプロイのトリガー機能を持つ。Amazon は今年初頭から開発者の AI 週次利用率 80% 達成を目標化しトークン消費量のリーダーボードを導入した。Meta でも tokenmaxxing は社員の間で見られる行動として既に報じられている。The Decoder は別記事 (Frontier Radar 2) で、AI 駆動の生産性向上の計測は依然としてベンチマークとバランスシートの間で揺れていると分析している。

キーワード解説

Goodhart の法則 とは、「ある指標が目標として採用されたとき、それは良い指標ではなくなる」という社会科学の経験則。本来は計測したい現象 (生産性) の代理として導入された指標 (AI 利用率・トークン消費量) は、目標化された途端に直接最適化対象となり、現象との相関が消える。AI ガバナンスのみならず KPI 設計全般に通底する。

MeshClaw とは、Amazon が社内で開発・運用する AI エージェントツールの名称。社員が自然言語指示で AI エージェントを構築し、コードデプロイ・メール処理・Slack 操作などをトリガーできる。今回の tokenmaxxing 現象の主要な舞台となった。

source: The Decoder , Financial Times