Shoji Times

#2026-05-08
20 sources → 30 news printed at 2026/05/09
academia ai
コロンビア大ら、PubMed Central 250 万本の参考文献監査で 3,000 本に偽引用を検出

コロンビア大ら、PubMed Central 250 万本の参考文献監査で 3,000 本に偽引用を検出

学術論文の参考文献整合性が破綻しつつあり、生成 AI 起因の汚染が事実上不可逆な信頼性問題として顕在化している

コロンビア大ら、PubMed Central 250 万本の参考文献監査で 3,000 本に偽引用を検出


何が変わったか

これまで学術論文の参考文献チェックは、査読者の目視と各誌の編集部に委ねられ、AI 生成による架空引用 (hallucinated references) の規模感は推測でしか語られなかった。Nature が 4 月に発表した分析でも 2025 年の出版物の 1.6% に存在しない論文への参照が含まれると見積もられたが、生医学領域の体系的な監査は未着手だった。

The Lancet 5 月 7 日掲載の論文によれば、コロンビア大学 Maxim Topaz 氏ら研究グループが PubMed Central 上の 2023 年 1 月 — 2026 年 2 月の 250 万論文・1.256 億参考文献を自動パイプラインで監査し、約 3,000 論文に偽引用を確認した。2025 年は 2023 年比で偽引用を含む論文数が 12 倍に急増。本研究は生医学文献における偽引用の規模を推定した初の学術研究で、著者らは「氷山の一角」と評している。

社会にどんな影響があるか

学術出版の信頼基盤が、AI 文章生成の浸透と整合性検証の遅れによって構造的に揺らいでいる。臨床判断・公衆衛生政策・後続研究の引用ネットワークが、根本的に存在しない論文を起点にしている可能性が定量的に示されたことで、出版社・査読委員会・研究費配分機関に DOI 解決チェックや出典自動検証を義務化する圧力が高まる。

副作用として、自動検証の導入は出版コスト・査読期間の増大を招く可能性がある。Google Scholar のように偽引用そのものを索引してしまう信頼性の低いデータベースの取り扱い見直しも論点として浮上する。

俺にどんな影響があるか

PRES の産学連携サービスでは、研究室シーズの「論文が本当に存在するか」「引用ネットワークが健全か」を企業側から問われる場面が増える。AI で生成された参照が混在する論文を企業の事業判断に使う場合のリスク管理プロセスを設計する必要が出てくる。

ニュースの詳細

研究チームは、PubMed Central に登録された 2023 年 1 月から 2026 年 2 月に出版された 250 万論文に含まれる 1 億 2,560 万の参考文献を分析。DOI または PubMed ID が有効な 9,700 万参考文献に絞り、(1) DOI / PubMed ID で解決される論文タイトルと参考文献内タイトルの不一致を LLM で検出、(2) 不一致または ID なしの参考文献を PubMed・Crossref・OpenAlex・Google Scholar の 4 データベースで検索し、いずれにも該当しない場合に fabricated と判定。

結果: 偽引用 1〜2 本の論文 2,564 本、3 本以上の論文 246 本。500 件の手動再検証では 3 名の独立査読者の合意で 7/10 が偽引用と確認された。「人が捏造したのか、AI が捏造したのか」は本研究では確定していないが、Digital Science の Kathryn Weber-Boer 氏は「急増の事実は生成 AI 由来の汚染を強く示唆する」とコメント。

著者らは、本数値は「保守的な過小推定」と強調。Google Scholar の信頼性が低く、偽引用が同サイトに索引されている事例があるため、検出をすり抜けた偽引用が無数に残ると見積もる。

キーワード解説

Hallucinated reference (架空引用 / 偽引用) とは、生成 AI が論文を執筆した際に、実在しない論文タイトル・著者・DOI を自信ありげに出力する現象。LLM が「もっともらしいパターン」を生成する性質の副産物で、本研究では 2024 年中盤以降に偽引用が急増している点が定量的に示された。

PubMed Central (PMC) とは、米国国立医学図書館 (NLM) が運営する、生医学系オープンアクセス論文の中央リポジトリ。PubMed が抄録のメタ索引であるのに対し、PMC は本文 PDF/XML を保持する。研究公開ポリシー (NIH Public Access Policy) の中核基盤。

DOI (Digital Object Identifier) とは、出版社や preprint サーバが論文ごとに発行する永続的識別子。crossref.org をベースに各種データベースが解決を担う。本研究では DOI 解決可能なリファレンスのみを検証対象とすることで、誤検知を抑制している。

Scientometrics (計量書誌学 / 科学計量学) とは、学術出版物の引用ネットワーク・著者ネットワーク・分野間関係を統計的に分析する学問領域。研究評価・ファンディング配分・分野マッピングなど政策決定支援にも応用される。Digital Science 社などが商用ツール群を提供している。

source: Nature News , The Lancet (Topaz et al., 2026) , Nature: 1.6% of 2025 publications contain fake references (April 分析)