ハーバード大、救急外来の診断モデル研究で OpenAI o1 が医師を凌駕──初診正解率 67% を達成
76 件の救急症例において、OpenAI o1 が内科医の診断精度(50-55%)を 10 ポイント以上上回り、特に情報が少ない初診段階での推論能力の高さを示した。
リリース: 2026-05-03 · 読了 3 分何が起きた
ハーバード大学医学部らが、Beth Israel 救急外来の 76 症例で OpenAI o1/4o と内科医 2 名の診断精度を比較。
情報が最も少ない初診(トリアージ)段階での o1 の診断正解率は 67% に達し、医師の 55% および 50% を有意に上回った。
電子カルテのデータを前処理なしでそのまま入力する形式を採用し、o1 は先行モデルの 4o や医師のベースラインを全ての指標で凌駕した。
外部の医師からは、比較対象が救急専門医ではなく内科医である点や、画像データが考慮されていない点に注意が必要との指摘もある。
なぜ重要
診断初期の「不完全な情報からの推論」において、o1 の Reasoning 能力が専門医の直感を数値で上回る実用性を示した。
RAG 等の外部知識に頼らず生のカルテから高精度な診断を下せるため、医療現場の要約・診断補助における実装コストが大幅に下がる設計が現実的になった。
👁️ 開発者
医療ドメインのエンジニアは、複雑な RAG パイプラインを構築する前に、o1 のような推論モデルに非構造化データを直接投入するアプローチの精度をベースラインに据えるべきだ。
🇯🇵 日本
国内の [医療系 SaaS 開発者] や [地方拠点病院] の DX 担当者は、LLM を単なる要約ツールではなく、トリアージの二次判定を行う「臨床意思決定支援システム (CDSS)」の核として再定義すべき局面にある。