哈佛醫學院與 Beth Israel Deaconess Medical Center 聯合團隊在《Science》期刊發表研究，以 76 位急診病人為樣本，測試 OpenAI o1 模型的診斷決策能力。結果顯示 o1 的準確率達 67%，顯著優於兩位內科主治醫師的 55% 與 50%。然而研究人員同步發出重要警語：對照組並非急診專科醫師，研究也未主張 AI 已能在真實情境下做生死決策。
（前情提要：加州大學研究「AI 腦霧」現象:14% 上班族被 Agent、自動化搞瘋，離職意願高四成）
（背景補充：《人類簡史》作者：AI 正成為威脅，它攻破了人類文明的作業系統！像核武器）

一篇來自哈佛醫學院的論文，悄悄在頂尖學術期刊《Science》掛上名字，讓醫療 AI 的討論從 demo 展示臺正式走進了臨床研究圈。

這項由哈佛醫學院聯合 Beth Israel Deaconess Medical Center 進行的研究，以 76 位真實急診病人的病歷資料為測試樣本，分別讓 OpenAI o1、GPT-4o，以及兩位內科主治醫師對每個案例做出診斷。評估標準是：給出「精準或非常接近正確答案」的比例。

最終數字讓不少人停下來多看一眼——o1 的準確率達到 67%，兩位人類醫師則分別落在 55% 與 50%。GPT-4o 也納入對照，但表現次於 o1。

o1 強在哪個環節？

研究團隊特別指出，o1 與人類醫師差距最明顯的時間點，發生在「初次檢傷分類(triage)」階段——也就是病人剛進急診、資訊最少、不確定性最高的那一刻。

在這個情境下，o1 需要根據文字描述的主訴、症狀、生命徵象，整合出一個初步診斷方向。這正好落在大型語言模型的強項區間：結構化文字的模式辨識、跨科別知識的快速整合、以及在資訊不完整時仍能給出有條理推理路徑的能力。

GPT-4o 雖然也參與了對照測試，但在同樣條件下表現不如 o1 穩定，與醫師之間的差距也相對較小。研究人員認為，這和 o1 更強的推理鏈架構有直接關係。

就研究意義來說，這不再只是「AI 在 benchmark 上贏了」的故事——樣本來自真實急診就診紀錄，而非人工設計的測試題，讓這份數字具備了一定的臨床參照價值。

別被頭條牽著走：三個你必須知道的前提

在這份研究引發廣泛討論之前，有三件事值得先放慢速度確認清楚。

**第一，對照組不是急診專科醫師。**測試中用來比較的兩位醫師是「內科主治醫師」，而非具備急診專科訓練的 ER 醫師。急診診斷的核心難度在於高壓、多工、資訊碎片化的現場判斷，內科醫師在這個場景本就不是最強的比較基準——研究的比較框架，本身就存在可以被挑戰的空間。

**第二，這是「文字 triage」，不是真實的多模態急診現場。**研究主任本人明確表示：「這只是文字檢傷，不等於真實的多模態 ER。」真實急診充斥著影像判讀、肢體觀察、現場溝通、緊急操作——這些都是大型語言模型目前尚無法介入的層面。

**第三，研究團隊自己沒有主張 AI 已可做生死決策。**發布結果的同時，研究人員同步強調這份研究的侷限性，並未建議將 AI 診斷直接應用於臨床實踐。

動區的角度是：這份研究確實代表了一個真實的技術里程碑——在「結構化文字診斷」這條賽道上，AI 已有能力超越特定情境下的人類醫師。但從「實驗室準確率」到「醫療現場可部署」之間，還隔著法規責任歸屬、多模態整合能力、院內系統串接，以及——最難的一關——出錯時誰來負責的問題。技術的門檻或許已過，但醫療 AI 真正落地，挑戰才剛開始。

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

置頂

哈佛研究登 Science：OpenAI o1 急診診斷正確率 67%，已打趴兩位人類醫師

o1 強在哪個環節？

別被頭條牽著走：三個你必須知道的前提

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂