ハーバード大学、OpenAI o1がトリアージ診断で医師を上回る精度を実証

AIが医師の独占領域だった臨床診断・治療計画の中核業務に踏み込み、医療の三者連携モデル (医師・患者・AI) への移行が加速する

何が変わったか

これまで臨床診断における大規模言語モデル (LLM, Large Language Model, 大量のテキストで学習した言語モデル) は、教科書的な症例問題への回答では好成績を出すものの、限られた情報で迅速な判断を要する救急現場では人間の医師に及ばないとされてきた。

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの研究チームが Science 誌に発表した研究では、 OpenAI o1 preview が標準的な救急外来カルテからの正確な診断率で 67% を記録し、人間の医師の 50〜55% を統計的に有意に上回った。診断初期のトリアージ (緊急度判定) という、最小限の情報で判断する局面で AI が優位性を示したことが報告された。

OpenAI o1 preview と GPT-4 等の診断精度比較グラフ — 診断推論の精度比較。o1 preview は約 78% で、GPT-4 の約 64% や従来の診断専用システムを大きく上回った。

社会にどんな影響があるか

主たる影響として、AI が医師の独占領域だった臨床診断・治療計画の中核業務に踏み込み、医療提供モデルそのものが組み換えられる。研究の主執筆者であるアダム・ロッドマン氏は「今後 10 年間で AI は医師、患者、AI システムからなる新たな三者連携医療モデルに加わる」と述べた。トリアージ精度の向上は、夜間救急や医師不足地域での到着前判断、症状の優先順位付けといった「医師にアクセスする前の段階」を AI が担う未来を示唆する。

副作用として、AI 診断への過度な依存リスクと責任所在の不明瞭化が浮上する。Florida 州が ChatGPT 関連で OpenAI に刑事捜査を開始した事例が示すように、AI が誤った医療助言を与えた場合の法的責任、保険制度、患者への説明責任といった制度設計が技術の進歩に追いついていない。

俺にどんな影響があるか

PRES が手がける「レンタル DX 推進室」サービスにとって、医療領域は研究室技術と企業ニーズが交錯する高密度な市場である。今回の結果は、産学連携の文脈で「臨床判断 AI を実証する場としての大学病院」の戦略的価値を再評価する材料になる。デザイナー視点では、AI が出した診断候補を医師がレビューする UI (確信度の可視化、根拠提示、却下理由の記録) こそが新しい医療システムの中核体験になる。

ニュースの詳細

研究では救急外来を受診した実際の患者 76 人の電子カルテを使用し、o1 preview と医師に同じ情報のみを与えた状態で診断を行った。標準的な電子カルテからの正診率は人間の医師 50〜55%、o1 preview 67%。より詳細な情報がある場合は o1 preview 82%、人間の専門家 70〜79% で統計的有意差はなかった。

長期治療計画の策定では、5 つの臨床症例について検索エンジンを使った人間の医師の正答率 34% に対し、o1 preview は 89% と顕著に上回った。ただし症例数が 5 つと小さいため、追加検証が必要だと研究者は指摘している。診断推論の精度では o1 preview が約 78%、GPT-4 が約 64% で、従来の診断専用システムも大きく下回った。

研究の筆頭著者でハーバード大学医学部 AI 研究所を率いるアルジュン・マンライ氏は「AI が医師に取って代わるのではなく、医療のあり方を根本的に変える非常に大きな技術革新が起きている」とコメントした。研究では画像・音声・非言語情報を扱わないテキスト中心の評価であり、現実医療への適用には更なる検証が必要だと留保が付されている。

キーワード解説

トリアージ とは、救急医療や災害医療において、限られた医療資源を最も必要とする患者から優先的に配分するため、患者の重症度・緊急度を判定する手順。発祥はナポレオン戦争時のフランス軍医で、現代では救急外来の到着時点で 5 段階に分類するシステムが標準化されている。

LLM (Large Language Model, 大規模言語モデル) とは、大量のテキストデータで学習し、文章の生成・要約・推論を行うニューラルネットワーク。GPT や Claude などが代表例で、医療応用では電子カルテからの推論や診断支援への活用が進んでいる。

OpenAI o1 とは、OpenAI が 2024 年に発表した推論強化型モデル。回答前に内部で「思考の連鎖 (chain-of-thought)」を行うことで、複雑な数学・科学・診断推論で従来モデルを大きく上回る性能を示す。本研究では o1 preview (公開前バージョン) が使用された。

source: GIGAZINE , Science (原論文) , Harvard Medical School (公式発表)