哈佛醫學院與 Beth Israel Deaconess Medical Center 聯合團隊在《Science》期刊發表研究,以 76 位急診病人為樣本,測試 OpenAI o1 模型的診斷決策能力。結果顯示 o1 的準確率達 67%,顯著優於兩位內科主治醫師的 55% 與 50%。然而研究人員同步發出重要警語:對照組並非急診專科醫師,研究也未主張 AI 已能在真實情境下做生死決策。 (前情提要:加州大學研究「AI 腦霧」現象:14% 上班族被 Agent、自動化搞瘋,離職意願高四成) (背景補充:《人類簡史》作者:AI 正成為威脅,它攻破了人類文明的作業系統!像核武器)一篇來自哈佛醫學院的論文,悄悄在頂尖學術期刊《Science》掛上名字,讓醫療 AI 的討論從 demo 展示臺正式走進了臨床研究圈。這項由哈佛醫學院聯合 **Beth Israel Deaconess Medical Center** 進行的研究,以 **76 位真實急診病人**的病歷資料為測試樣本,分別讓 OpenAI o1、GPT-4o,以及兩位內科主治醫師對每個案例做出診斷。評估標準是:給出「精準或非常接近正確答案」的比例。最終數字讓不少人停下來多看一眼——o1 的準確率達到 **67%**,兩位人類醫師則分別落在 **55%** 與 **50%**。GPT-4o 也納入對照,但表現次於 o1。### o1 強在哪個環節?研究團隊特別指出,o1 與人類醫師差距最明顯的時間點,發生在「初次檢傷分類(triage)」階段——也就是病人剛進急診、資訊最少、不確定性最高的那一刻。在這個情境下,o1 需要根據文字描述的主訴、症狀、生命徵象,整合出一個初步診斷方向。這正好落在大型語言模型的強項區間:結構化文字的模式辨識、跨科別知識的快速整合、以及在資訊不完整時仍能給出有條理推理路徑的能力。GPT-4o 雖然也參與了對照測試,但在同樣條件下表現不如 o1 穩定,與醫師之間的差距也相對較小。研究人員認為,這和 o1 更強的推理鏈架構有直接關係。就研究意義來說,這不再只是「AI 在 benchmark 上贏了」的故事——樣本來自真實急診就診紀錄,而非人工設計的測試題,讓這份數字具備了一定的臨床參照價值。### 別被頭條牽著走:三個你必須知道的前提在這份研究引發廣泛討論之前,有三件事值得先放慢速度確認清楚。**第一,對照組不是急診專科醫師。**測試中用來比較的兩位醫師是「內科主治醫師」,而非具備急診專科訓練的 ER 醫師。急診診斷的核心難度在於高壓、多工、資訊碎片化的現場判斷,內科醫師在這個場景本就不是最強的比較基準——研究的比較框架,本身就存在可以被挑戰的空間。**第二,這是「文字 triage」,不是真實的多模態急診現場。**研究主任本人明確表示:「這只是文字檢傷,不等於真實的多模態 ER。」真實急診充斥著影像判讀、肢體觀察、現場溝通、緊急操作——這些都是大型語言模型目前尚無法介入的層面。**第三,研究團隊自己沒有主張 AI 已可做生死決策。**發布結果的同時,研究人員同步強調這份研究的侷限性,並未建議將 AI 診斷直接應用於臨床實踐。動區的角度是:這份研究確實代表了一個真實的技術里程碑——在「結構化文字診斷」這條賽道上,AI 已有能力超越特定情境下的人類醫師。但從「實驗室準確率」到「醫療現場可部署」之間,還隔著法規責任歸屬、多模態整合能力、院內系統串接,以及——最難的一關——出錯時誰來負責的問題。技術的門檻或許已過,但醫療 AI 真正落地,挑戰才剛開始。
哈佛研究登 Science:OpenAI o1 急診診斷正確率 67%,已打趴兩位人類醫師
哈佛醫學院與 Beth Israel Deaconess Medical Center 聯合團隊在《Science》期刊發表研究,以 76 位急診病人為樣本,測試 OpenAI o1 模型的診斷決策能力。結果顯示 o1 的準確率達 67%,顯著優於兩位內科主治醫師的 55% 與 50%。然而研究人員同步發出重要警語:對照組並非急診專科醫師,研究也未主張 AI 已能在真實情境下做生死決策。
(前情提要:加州大學研究「AI 腦霧」現象:14% 上班族被 Agent、自動化搞瘋,離職意願高四成)
(背景補充:《人類簡史》作者:AI 正成為威脅,它攻破了人類文明的作業系統!像核武器)
一篇來自哈佛醫學院的論文,悄悄在頂尖學術期刊《Science》掛上名字,讓醫療 AI 的討論從 demo 展示臺正式走進了臨床研究圈。
這項由哈佛醫學院聯合 Beth Israel Deaconess Medical Center 進行的研究,以 76 位真實急診病人的病歷資料為測試樣本,分別讓 OpenAI o1、GPT-4o,以及兩位內科主治醫師對每個案例做出診斷。評估標準是:給出「精準或非常接近正確答案」的比例。
最終數字讓不少人停下來多看一眼——o1 的準確率達到 67%,兩位人類醫師則分別落在 55% 與 50%。GPT-4o 也納入對照,但表現次於 o1。
o1 強在哪個環節?
研究團隊特別指出,o1 與人類醫師差距最明顯的時間點,發生在「初次檢傷分類(triage)」階段——也就是病人剛進急診、資訊最少、不確定性最高的那一刻。
在這個情境下,o1 需要根據文字描述的主訴、症狀、生命徵象,整合出一個初步診斷方向。這正好落在大型語言模型的強項區間:結構化文字的模式辨識、跨科別知識的快速整合、以及在資訊不完整時仍能給出有條理推理路徑的能力。
GPT-4o 雖然也參與了對照測試,但在同樣條件下表現不如 o1 穩定,與醫師之間的差距也相對較小。研究人員認為,這和 o1 更強的推理鏈架構有直接關係。
就研究意義來說,這不再只是「AI 在 benchmark 上贏了」的故事——樣本來自真實急診就診紀錄,而非人工設計的測試題,讓這份數字具備了一定的臨床參照價值。
別被頭條牽著走:三個你必須知道的前提
在這份研究引發廣泛討論之前,有三件事值得先放慢速度確認清楚。
**第一,對照組不是急診專科醫師。**測試中用來比較的兩位醫師是「內科主治醫師」,而非具備急診專科訓練的 ER 醫師。急診診斷的核心難度在於高壓、多工、資訊碎片化的現場判斷,內科醫師在這個場景本就不是最強的比較基準——研究的比較框架,本身就存在可以被挑戰的空間。
**第二,這是「文字 triage」,不是真實的多模態急診現場。**研究主任本人明確表示:「這只是文字檢傷,不等於真實的多模態 ER。」真實急診充斥著影像判讀、肢體觀察、現場溝通、緊急操作——這些都是大型語言模型目前尚無法介入的層面。
**第三,研究團隊自己沒有主張 AI 已可做生死決策。**發布結果的同時,研究人員同步強調這份研究的侷限性,並未建議將 AI 診斷直接應用於臨床實踐。
動區的角度是:這份研究確實代表了一個真實的技術里程碑——在「結構化文字診斷」這條賽道上,AI 已有能力超越特定情境下的人類醫師。但從「實驗室準確率」到「醫療現場可部署」之間,還隔著法規責任歸屬、多模態整合能力、院內系統串接,以及——最難的一關——出錯時誰來負責的問題。技術的門檻或許已過,但醫療 AI 真正落地,挑戰才剛開始。