

商傳媒|責任編輯/綜合外電報導
一份最新系統性回顧指出,儘管人工智慧(AI)工具在預測青光眼進展方面展現中度至良好的準確性,但由於研究方法不一致、透明度低以及缺乏外部驗證,使其在臨床上的廣泛應用仍受限制。
這份研究分析了來自 43 項獨立研究的 46 份報告,旨在評估人工智慧在青光眼進展預測方面的潛力及其在真實世界臨床應用中的可行性。青光眼是全球導致不可逆失明的首要原因,預計到 2040 年,全球患者人數將超過 1.11 億人。目前,醫學界尚無臨床工具能根據預測的疾病進展風險,為患者提供個人化治療指引,因此早期且精確的疾病進展預測,對於最大程度地保護視力至關重要。
研究人員從 Embase、Web of Science、MEDLINE、arXiv 和考克蘭圖書館等五個資料庫篩選了超過 4,100 筆記錄,最終納入涵蓋六個國家逾 202,207 名受試者的 43 項獨立研究,其中 28 項來自美國。這些研究均為回溯性分析,且 46 篇文章中有 36 篇是在過去四年內發表。
人工智慧模型主要用於三類預測任務:二元分類(預測疾病惡化或轉變為青光眼)、數值迴歸(預測臨床測量值的未來變化)及存活模型(估計不同時間點的疾病進展機率)。對於從眼壓過高或青光眼疑似轉變為確診青光眼的二元分類模型,其曲線下面積(AUC)分數介於 0.62 至 0.99。而針對已確診青光眼患者的生物學標準預測模型,AUC 範圍為 0.68 至 0.93;若使用臨床事件標準(如升級手術),AUC 則介於 0.65 至 0.99。
然而,研究也揭示了多項關鍵挑戰。只有 7 項研究(佔總數不到兩成)對其人工智慧模型進行了外部資料集的驗證。其中一項研究顯示,經過外部驗證後,AUC 從內部資料的 0.67 大幅下降至 0.49,凸顯單純依賴內部驗證的風險。此外,僅有 42% 的研究在使用 QUADAS-2 評估工具時,在所有評估領域中被評為低偏差風險,最常見的問題出現在患者選擇與遺漏數據處理上。在透明度方面,僅 21% 的研究提供了開源程式碼,而公開訓練與測試數據的比例更低至 5%。僅有 40% 的研究報告了患者群體的種族與族裔數據,儘管已知人工智慧模型在預測青光眼方面可能存在種族和族裔相關的表現差異。
主導這項研究的澳洲雪梨新南威爾斯州大學醫學與健康學院的 Yichuan G. Liang 等作者指出,大多數研究未能報告具臨床可行性的效能指標,且沒有明確地將治療效果納入模型考量,這是一項重要的限制。患者資料集中雖包含多樣的治療介入,但治療歷史和結果通常未被報告,導致模型預設為無治療或治療反應一致。為此,研究團隊首次提出了青光眼領域特定的研究實踐與報告建議清單,以期推動未來研究設計更加穩健、報告更透明,並最終促進人工智慧工具安全地應用於臨床。
