研究：AI 醫(yī)療診斷平均準確率 52.1%，與非專家醫(yī)生相當

作者：時間：2025-04-21 來源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

4 月 21 日消息，大阪都會大學(xué)醫(yī)學(xué)研究生院 Hirotaka Takita 博士和 Daiju Ueda 副教授領(lǐng)導(dǎo)的研究小組近期發(fā)布一項系統(tǒng)性回顧和薈萃分析，深入評估了生成式人工智能（AI）在診斷醫(yī)療狀況方面的表現(xiàn)，并將其與醫(yī)生進行了對比。

本文引用地址：http://m.ljygm.com/article/202504/469585.htm

研究團隊篩選了總計 18371 項研究，最終確定 83 項進行詳細分析。這些研究涉及多種生成式 AI 模型，包括 GPT-4、Llama3 70B、Gemini 1.5 Pro 和 Claude 3 Sonnet 等，覆蓋了多個醫(yī)療領(lǐng)域。其中，GPT-4 是研究最多的模型。結(jié)果顯示，這些 AI 模型的平均診斷準確率為 52.1%（95% 置信區(qū)間：47.0% - 57.1%）。部分模型的診斷準確率與非專家醫(yī)生相當，兩者之間沒有顯著統(tǒng)計差異（準確率差異：0.6% [95% 置信區(qū)間：-14.5% 至 15.7%]，p=0.93）。然而，專家醫(yī)生的表現(xiàn)仍優(yōu)于 AI，其準確率差距為 15.8%（95% 置信區(qū)間：4.4% - 27.1%，p=0.007）。盡管如此，隨著技術(shù)的不斷進步，這一差距可能會逐漸縮小。

研究還發(fā)現(xiàn)，AI 在大多數(shù)醫(yī)學(xué)?？频谋憩F(xiàn)較為一致，但有兩個例外：皮膚科和泌尿科。在皮膚科，AI 的表現(xiàn)更為出色，這可能是因為該領(lǐng)域涉及模式識別，而這是 AI 的強項。但皮膚科同樣需要復(fù)雜的推理和針對患者的決策，因此 AI 的優(yōu)勢并不能完全反映其在該領(lǐng)域的實際應(yīng)用價值。對于泌尿科，研究結(jié)果僅基于一項大型研究，因此其結(jié)論的普適性受到一定限制。

“這項研究表明，生成式 AI 的診斷能力與非專家醫(yī)生相當。它可以用于醫(yī)學(xué)教育，支持非專家醫(yī)生，并在醫(yī)療資源有限的地區(qū)協(xié)助診斷?！盚irotaka Takita 博士表示，“未來的研究需要在更復(fù)雜的臨床場景中進行評估，使用實際病歷進行性能評估，提高 AI 決策的透明度，并在不同患者群體中進行驗證，以進一步證實 AI 的能力?！?/p>

除了診斷領(lǐng)域，該研究還強調(diào)了生成式 AI 在醫(yī)學(xué)教育中的潛力。研究人員指出：“當前生成式 AI 模型在非專家環(huán)境下的表現(xiàn)與醫(yī)生相當，這為將 AI 整合到醫(yī)學(xué)培訓(xùn)中提供了機會?！? AI 可以用于模擬真實病例，幫助醫(yī)學(xué)生和受訓(xùn)者學(xué)習和評估他們的技能。

然而，研究也對這些模型的透明度和偏見提出了擔憂。許多 AI 系統(tǒng)并未公開其訓(xùn)練數(shù)據(jù)的詳細信息，這引發(fā)了關(guān)于其結(jié)果是否適用于所有人群的疑問。研究人員強調(diào)，“透明度確保了對模型知識、背景和局限性的理解”，并強調(diào)需要開發(fā)清晰、符合倫理且經(jīng)過充分驗證的 AI 應(yīng)用。

目前，盡管生成式 AI 具有巨大潛力，但在涉及詳細患者信息的復(fù)雜病例中仍面臨挑戰(zhàn)。醫(yī)生們是否需要擔心失去工作？目前尚難定論，但在診斷領(lǐng)域，這種情況是有可能發(fā)生的。