米政府 CAISI、DeepSeek V4 Pro はフロンティアから「約8カ月遅れ」と評価し最も有能な中国製 AI と認定

米中 AI 性能ギャップが「政府評価で8カ月」という具体数値で固定され、輸出規制・調達ガイドライン・安全保障文脈の議論が定量根拠を得る

何が変わったか

これまで「米中 AI ギャップ」は数カ月から数年まで諸説乱立し、独立系評価サイト (Artificial Analysis 等) や開発者の体感ベースで議論されてきた。

5月3日、米国 NIST 傘下の CAISI (Center for AI Standards and Innovation, AI 標準・革新センター) が中国 DeepSeek V4 Pro を含む中国製モデルを評価し、「DeepSeek V4 Pro は CAISI が評価した5領域 (サイバー・ソフトウェアエンジニアリング・自然科学・抽象推論・数学) で最も有能な中国モデルだが、フロンティア (最先端の米国モデル) から約8カ月遅れであり、約8カ月前の GPT-5 と同等」と政府文書として位置付けた。DeepSeek の自己申告ベンチマークでは Opus 4.6・GPT-5.4 (約2カ月前リリース) と同等とされていたが、CAISI の独立評価ではより大きなギャップが確認された。

米中 AI レースの概念図 — CAISI の評価では DeepSeek V4 Pro は「中国モデルとしては最強」だが、米国フロンティアモデルから8カ月遅れ。GPT-5.4 mini との比較では7ベンチマーク中5つで DeepSeek V4 Pro のほうがコスト効率に優れる。

社会にどんな影響があるか

主たる影響として、米中 AI 競争の「ギャップ」が政府公文書で具体数値化されたことで、輸出規制 (チップ・ノウハウ)・連邦政府調達ガイドライン・国防系契約での AI 採用判断が定量根拠を得る。「8カ月遅れ」は同時に「8カ月で追いつく可能性がある」距離でもあり、Nvidia H20 等の対中輸出方針、TSMC 米国工場の優先順位、政権の AI Action Plan の予算配分など複数の政策判断にループバックする。

一方で副作用として、CAISI 評価指数は非公開ベンチマークを含むため再現困難で、独立検証が成り立たない。Artificial Analysis などの独立系では「米中ギャップは時間とともにほぼ一定」とする見解もあり、政府ベンチマークの結論を絶対視すると、ベンダー側の自己評価との乖離をどう調停するかという二次的な信頼問題が生まれる。

俺にどんな影響があるか

PRES の事業設計に直接の影響はないが、「米中の AI 性能差が定量化され、コスト効率では DeepSeek が優位」という構図は、企業がフロンティアモデル (Claude・GPT) と中国系オープンモデル (DeepSeek・MiMo・Qwen) のどちらを採用するかという調達判断の境界条件を変える。安全保障・規制リスクが許容できる用途では、コスト最適点が中国系オープンモデルに寄る圧力が出る。日本企業がそのレールに乗るか・避けるかは、輸出管理リストの動きと連動する。

ニュースの詳細

CAISI は2025年に NIST が AI Safety Institute から改組して発足した米政府機関で、過去に DeepSeek 旧モデルの安全性評価 (2025年9月) も発表している。今回の DeepSeek V4 Pro 評価は5領域の能力ベンチマークと安全性評価を組み合わせ、米国モデル (GPT-5、Opus 4.6、GPT-5.4 等) を比較対象に置いた。

コスト効率の面では DeepSeek V4 Pro は GPT-5.4 mini との比較で7ベンチマーク中5つで優位。CAISI は「同等性能で低価格のモデルが市場で重要な役割を果たす」と評価しており、コストパフォーマンスでは中国モデルの優位性を認めた格好。一方で能力フロンティアでは「8カ月遅れ」を維持しており、輸出規制効果の継続を示すデータとも読める。CAISI 評価書は Techmeme 等で速報配信され、政策議論に直接接続している。

source: The Decoder , NIST CAISI , Techmeme , TechRepublic