Anthropic、Claudeのバイオインフォマティクス能力を測るBioMysteryBenchを公開

元々は LLM のバイオインフォマティクス能力評価は教科書的な小問題や合成データに偏り、実データを扱う研究プロセス全体を測る公開ベンチマークは限定的だった

Anthropic、Claude のバイオインフォマティクス能力を測る BioMysteryBench を公開実データ99問で専門家パネルと同等水準・人間が解けない問題まで一部解決

何が変わったか

これまでは、LLM のバイオインフォマティクス能力評価は教科書的な小問題や合成データに偏っており、実データを扱う現場の研究プロセス全体を測る公開ベンチマークは限定的だった。

この BioMysteryBench (ドメイン専門家作成の99問、実データベース) の公開によって、最新世代の Claude が人間可解な76問で5名の専門家パネルと同等水準を達成し、人間が解けなかった23問のうち一部まで解決していることが定量的に示された。LLM はライフサイエンス研究を補助する段階から、研究プロセスの中核を担える段階への閾値を、ベンチマーク上で初めて越えた格好になる。

社会にどんな影響があるか

主たる影響として、バイオインフォ研究におけるフロンティア LLM の協働者ポジションが定量的に裏付けられた。WGS・scRNA-seq・ChIP-seq・メタゲノミクスなど主要データタイプを横断し、客観的な正解 (細胞タイプ、感染ウイルス種など) を要求する課題で人間専門家水準を達成したことで、ライフサイエンス研究機関がモデル導入を検討する材料が一段強くなる。Genentech/Roche の競合ベンチマーク CompBioBench でも Opus 4.6 が全体81%・最難問69%を記録しており、複数の独立ベンチマークが同じ結論に収束している点も大きい。

一方で副作用として、ベンチマーク作成主体が Anthropic 自身であるという利益相反は無視できない。問題選定や難易度分布が自社モデルに有利に働く可能性は構造上残るため、第三者再現や独立評価がない段階で「人間専門家と同等」と一般化するのは早い。さらに、ベンチマーク高得点と実環境での研究協働者としての信頼性 (誤答時の被害、未知データへの汎化、機微な臨床判断への適用) は別次元の問題で、評価の網にかからない失敗様式は依然不明である。

俺にどんな影響があるか

PRES がドメイン特化型 AI 製品や研究協働を扱う際の評価設計テンプレートとして直接転用できる。 「ドメイン専門家がデータから問題を作る」「客観的な正解を直交検証可能なメタデータから導出する」「人間が解けない問題まで含める」という設計三原則は、バイオインフォに限らずあらゆる専門領域 AI 評価に応用可能。Claude の解法が Know-it-all 型と複数手法統合型に分かれる観察も、AI 製品が「事前学習知識依存」と「ツール統合」のどちらの性能で勝負しているかを切り分ける視点として有効。

ニュースの詳細

BioMysteryBench は、ドメイン専門家が実データから作成した99問のバイオインフォ課題集で、入力に WGS・scRNA-seq・ChIP-seq・メタゲノミクスなどの生データを取り、客観的な正解 (細胞タイプ、感染ウイルス種など) を導けるかを評価する。設計上は解法非依存 (method-agnostic) で、正解はデータの検証可能な性質または直交検証されたメタデータから導出される。

Claude の解法戦略は2系統に大別され、構造生物学・分子プロファイル・メタ分析の事前学習知識を直接動員する Know-it-all 型と、不確実時に複数手法を重ねて結論を収束させる複数手法統合型がある。

ベンチマークは Hugging Face で公開され、ライフサイエンス向け応用情報は claude.com/lifesciences で展開される。

source: Anthropic Research