何が変わったか
これまで AI 訓練データを巡る著作権訴訟は、ニューヨーク・タイムズや小説家など報道・文芸領域の権利者が主導してきた。学術出版社は AI 訓練データへの懸念を表明しつつも、訴訟の表舞台には立っていなかった。
5 月 5 日にニューヨーク南部地区連邦地裁に提出されたクラスアクション訴訟で、Cell や The Lancet を含む数千ジャーナルを擁する Elsevier が、書籍出版大手の Hachette・Macmillan と米作家・弁護士 Scott Turow 氏とともに Meta および CEO Mark Zuckerberg を提訴した。米国出版業界協会 (AAP) は「主要出版社が起こした初の AI 訴訟」と位置付ける。
社会にどんな影響があるか
主たる影響として、学術論文を AI で訓練する慣行が「フェアユース」として正当化できるかが、初めて学術出版業界主導の判例で問われる。AI 企業は訓練データを秘匿してきたが、有料論文がオープンアクセス論文と同様に訓練データに含まれている前提は業界で広く想定されてきた。
副作用として、研究者の論文公開戦略にも波及する。出版社の権利が判決で強く認められれば、研究者が査読論文を AI で要約・検索する研究支援ツール (Elicit、Consensus 等) の合法性に直接影響する。逆にフェアユースが認められれば、出版社のサブスクリプション収益モデルへの圧力が増す。
ニュースの詳細
訴状は、Meta が Llama の訓練データとして、世界中の Web ページから無差別収集した Common Crawl データセット (有料論文の抄録・本文を含む) を使用したと指摘する。さらに、書籍データベース LibGen と研究論文リポジトリ Sci-Hub から BitTorrent で書籍・論文を意図的にダウンロードしたとも主張する。証拠の多くは、Meta 社員間の電子メールで、別件 (作家らによる Kadrey v. Meta 訴訟) で開示された。Meta の広報担当は「断固として争う」「著作物への AI 訓練はフェアユースとなり得るとの判例が確立している」と反論声明を出している。
キーワード解説
フェアユース (Fair Use) とは、米著作権法の例外規定。教育・研究・批評・報道など特定の目的での著作物利用について、(a) 利用の性質と目的、(b) 著作物の性質、(c) 利用された量と質、(d) 元著作物の市場への影響の 4 因子を裁判所が個別判断する。AI 訓練が該当するかが現在の係争点。
Sci-Hub とは、カザフスタンの研究者 Alexandra Elbakyan 氏が 2011 年に開設した、論文を著作権の枠を越えて無料公開するリポジトリ。学術出版社から多数の訴訟を受けつつ、9,000 万本超の論文を提供しており、Elsevier 等が「アクセス権の象徴的な侵害源」として位置付ける。
LibGen (Library Genesis) とは、書籍・教科書・研究論文を著作権を考慮せず無償提供するアーカイブ。AI 訓練データセットへの組み込みが Kadrey v. Meta 訴訟で内部メールから明らかになり、本訴訟の証拠の重要な部分を構成する。