將 AI 用于疾病診斷已經(jīng)是一個(gè)老話題。
早在 2019 年 8 月,倫敦癌癥研究所就在NPJ Breast Cancer雜志上發(fā)表了一篇文章,稱他們將 AI 應(yīng)用于分析乳腺癌的基因序列與分子數(shù)據(jù),最終成功識別出 5 種新的乳腺癌亞型,還能辨識出哪些女性對乳腺癌有較好的免疫力。
鏈接:
這項(xiàng)研究吸引了越來越多科研者加入將 AI 用于輔助乳腺癌發(fā)現(xiàn)或治療的隊(duì)伍。
去年 1 月,谷歌的健康團(tuán)隊(duì)又聯(lián)合 DeepMind 在 Nature 上發(fā)表了一項(xiàng)將 AI 用于檢測乳腺癌的研究成果。他們開發(fā)了一個(gè)針對乳腺癌的 AI 篩查系統(tǒng),可以對乳腺癌 X 射線造影數(shù)據(jù)進(jìn)行大規(guī)模分析與處理,也引起了廣泛關(guān)注。
當(dāng)時(shí),這項(xiàng)研究的報(bào)道稱,通過與 6 位美國放射科醫(yī)生的篩查過程相比,他們所開發(fā)的 AI 系統(tǒng)表現(xiàn)優(yōu)于所有醫(yī)生,AI 系統(tǒng)的自動(dòng)識別面積比一般放射科醫(yī)生要高出 11.5%。
蕓蕓大眾一看,立即拍腿贊嘆:AI 真了不起!AI 是不是很快就要超越、甚至取代放射科醫(yī)生?
冷靜、冷靜。
近日,《英國醫(yī)學(xué)雜志》(The BMJ)刊登了一篇來自英國華威大學(xué)醫(yī)療科學(xué)部門研究人員(以下簡稱“該團(tuán)隊(duì)”)的研究工作。該團(tuán)隊(duì)對近年 AI 技術(shù)用于乳腺癌篩查的工作進(jìn)行了檢索,希望檢驗(yàn) AI 技術(shù)用于 X 光攝像識別的準(zhǔn)確度。
該團(tuán)隊(duì)得出的研究結(jié)論是:目前的研究證據(jù)還不足以判斷 AI 在乳腺癌篩查項(xiàng)目中的準(zhǔn)確性,也尚不清楚 AI 在臨床醫(yī)學(xué)的哪個(gè)環(huán)節(jié)最有用。
但可以肯定的是,AI 系統(tǒng)目前尚無法取代超過兩位放射科醫(yī)生合作探討的結(jié)果。
研究背景
乳腺癌是奪走全球女性健康與生命的主要原因之一。2015 年,全球約有 240 萬女性被診斷出患有乳腺癌,523,000 名女性因此死亡。
乳腺癌在早期時(shí)發(fā)現(xiàn)會(huì)更容易治療,因此許多國家都推出了乳腺癌的篩查計(jì)劃。
乳腺癌篩查需要一名或兩名放射科醫(yī)生檢查 X 光照片,以尋找癥狀出現(xiàn)前的癌癥跡象,從而降低乳腺癌的發(fā)病率與死亡率。在篩查的過程中,乳腺癌的發(fā)現(xiàn)率為 0.6% 至 0.8%。值得注意的是,15% 至 35% 的乳腺癌會(huì)因?yàn)楹Y查誤差或不易見癥狀而沒有被發(fā)現(xiàn)。有些被漏診的癌癥,在癥狀上被稱為“間期癌”(interval cancer)。
2019 年,全球有 3.8% 研究 Scopus 數(shù)據(jù)庫的同行評審文章與 AI 相關(guān)。許多研究稱,在乳腺癌篩查的圖像識別上,AI 比經(jīng)驗(yàn)豐富的放射科醫(yī)生表現(xiàn)更優(yōu),并能彌補(bǔ)現(xiàn)有人類醫(yī)生篩查的缺陷。比如,AI 算法不會(huì)“疲勞”,也不會(huì)摻入主觀診斷,所以能幫助發(fā)現(xiàn)更多乳腺癌病例,減少放射科醫(yī)生的工作量,甚至完全取代放射科醫(yī)生。
但是,華威大學(xué)的研究指出,AI 也可能會(huì)加劇篩查的危害。比方說,如果 AI 在圖像篩查中檢測到更多微鈣化(由較低級別的原位導(dǎo)管癌引起),那么它可能會(huì)改變?nèi)橄侔┑募膊∽V。在這種情況下,AI 可能會(huì)增加過度診斷與過度治療的概率。
尸檢研究表明,大約 4% 的女性是帶著乳腺癌死亡,但死因并不是乳腺癌,所以數(shù)據(jù)存儲(chǔ)了許多不重要的臨床疾病,包括可能被 AI 檢測到的偶發(fā)原位癌。疾病譜與 X 線圖像的特征有關(guān)(例如,原位導(dǎo)管癌通常與微鈣化有關(guān))。因此,AI 系統(tǒng)基于訓(xùn)練的案例,以及 AI 系統(tǒng)的結(jié)構(gòu),可能會(huì)對檢測到的疾病譜產(chǎn)生重大影響。
目前的許多人工智能系統(tǒng)是不可解釋的,是一個(gè)“黑匣子”,與人類決策者的思路可解釋形成鮮明對比。AI 算法無法理解圖像的上下文、收集模式與含義,可能產(chǎn)生“抄捷徑”的問題。此前,DeGrave 等人在“AI for radiographic COVID-19 detection selects shortcuts over signal”(2020 年)一文中便展示了一些深度學(xué)習(xí)系統(tǒng)如何通過混雜因子而不是病理來檢測新冠病毒,從而導(dǎo)致系統(tǒng)的泛化性極差。
這項(xiàng)工作對 2010 年 1 月 1 日至 2021 年 5 月 17 日期間 Medline、Embase、Web of Science 與 Cochrane Database of Systematic Reviews(CENTRAL) 等英文文獻(xiàn)數(shù)據(jù)庫進(jìn)行了系統(tǒng)檢索。
檢索的主題包含 4 個(gè):乳腺癌(breast cancer)、人工智能(artificial intelligence)、X 線照相術(shù)(mammography)和測試精度(test accuracy)或隨機(jī)對照試驗(yàn)(randomised controlled trials)。
研究發(fā)現(xiàn)
回顧常規(guī)乳腺癌篩查中所用的 AI 圖像分析系統(tǒng),華威大學(xué)的研究團(tuán)隊(duì)確定了 12 項(xiàng)評估商用或內(nèi)部卷積神經(jīng)網(wǎng)絡(luò) AI 系統(tǒng)的研究,包含了對 131,822 名女性的篩查數(shù)據(jù),是第一個(gè)對 AI 輔助乳腺癌發(fā)現(xiàn)的準(zhǔn)確性進(jìn)行檢測的研究工作。其中,9 項(xiàng)研究將 AI 系統(tǒng)與放射科醫(yī)生進(jìn)行了對比。
三項(xiàng)回顧性研究將 AI 系統(tǒng)與原始放射科醫(yī)生的臨床決策作了比較,研究對象包含 79,910 名女性,其中 1878 名女性在篩查后的 12 個(gè)月內(nèi)檢測到癌癥或間期癌。在研究所評估的 36 個(gè) AI 系統(tǒng)中,有 34 個(gè)(94%)的準(zhǔn)確率低于單一的放射科醫(yī)生;如果與兩位以上的放射科醫(yī)生討論對比,那么 36 個(gè) AI 系統(tǒng)的檢測準(zhǔn)確率都比不上人類醫(yī)生。
瑞典篩查計(jì)劃的 DREAM 挑戰(zhàn)覆蓋了 68,008 名女性,發(fā)現(xiàn)表現(xiàn)最佳的 AI 系統(tǒng)也比不上人類放射科醫(yī)生(88% vs. 96.7%);當(dāng) AI 的閾值分別設(shè)置為第一讀者敏感性與讀者敏感性的共識時(shí),AI 的表現(xiàn)也與人類原創(chuàng)的共識決策相差甚遠(yuǎn)(81% vs. 98.5%)。八個(gè)表現(xiàn)最佳的 AI 系統(tǒng)的集成方法特性也比不上第一的放射科醫(yī)生(92.5% vs. 96.7%)。
瑞典一個(gè)更廣泛的研究使用了三個(gè)商用 AI 系統(tǒng),設(shè)置的閾值與原創(chuàng)放射科醫(yī)生的特性相當(dāng)。該研究發(fā)現(xiàn),與第一的放射科醫(yī)生相比,一個(gè)商用 AI 系統(tǒng)的靈敏度更高(81.9% vs. 77.4%),其余兩個(gè)商用 AI 系統(tǒng)的靈敏度較差(67%,67.4%)。而與人類的創(chuàng)新共識決策相比(85%),三個(gè)商用 AI 系統(tǒng)的表現(xiàn)都更差。
而在五項(xiàng)范圍較小(1086 位女性、520 種癌癥)、風(fēng)險(xiǎn)較高且臨床需求較小的研究中,所評估的 5 個(gè) AI 系統(tǒng)(獨(dú)立替代放射科醫(yī)生或閱讀輔助)在閱讀實(shí)驗(yàn)室測試集時(shí)的準(zhǔn)確率都高于單一的放射科醫(yī)生。在三項(xiàng)研究中,用于分類的 AI 技術(shù)可以分別篩選出 53%、45% 和 50% 處于低風(fēng)險(xiǎn)的女性,而放射科醫(yī)生僅能檢測到 10%、4% 和 0% 的癌癥。
六項(xiàng)范圍最小的研究(總共覆蓋了 4,183 名女性)發(fā)現(xiàn),AI 比單一的放射科醫(yī)生更準(zhǔn)確。在這六項(xiàng)研究中,有五項(xiàng)研究里,放射科醫(yī)生是在實(shí)驗(yàn)室環(huán)境中檢查 932 名女性的 X 光圖像,這種方法不能推廣到臨床實(shí)踐中。
而美國的一項(xiàng)篩查研究則發(fā)現(xiàn),AI 系統(tǒng)在靈敏性(56% v 48%)與獨(dú)特性(84% v 81%)方面的表現(xiàn)超過單一的放射科醫(yī)生。此外,兩項(xiàng)豐富的測試集多案例多閱讀器實(shí)驗(yàn)室研究報(bào)告稱,AI 在實(shí)驗(yàn)室環(huán)境的閱讀中要優(yōu)于單個(gè)放射科的平均表現(xiàn)。
在輔助閱讀上,有三項(xiàng)研究將 AI 作為閱讀輔助工具,發(fā)現(xiàn)放射科醫(yī)生在實(shí)驗(yàn)室環(huán)境中閱讀豐富測試集的準(zhǔn)確性無法泛化到臨床實(shí)踐上。三項(xiàng)研究均顯示,有 AI 技術(shù)輔助的放射科醫(yī)生在平均靈敏度上均高于獨(dú)立閱讀。
在豐富的測試集多讀者多案例實(shí)驗(yàn)室研究中,一個(gè)獨(dú)立的內(nèi)部 AI 模型(DeepHealth Inc.)能夠檢測到更多的浸潤性癌癥(多 12.7%)和更多的原位導(dǎo)管癌(多 16.3 %)。
寫在最后
研究團(tuán)隊(duì)得出的結(jié)論是:目前的研究證據(jù)還不足以判斷 AI 在乳腺癌篩查項(xiàng)目中的準(zhǔn)確性,也尚不清楚 AI 對臨床醫(yī)學(xué)的哪些方面最有用。但可以肯定的是,AI 系統(tǒng)目前尚無法取代兩位以上放射科醫(yī)生的合作探討。
大多數(shù)研究都集中在以圖像識別和解釋為核心的篩查過程中。最近發(fā)表的工作還研究了如何將人工智能和深度學(xué)習(xí)用于糖尿病視網(wǎng)膜病變篩查。除了傳統(tǒng)的篩查計(jì)劃,深度學(xué)習(xí)在醫(yī)學(xué)中的應(yīng)用也越來越廣泛,并被考慮用于黑色素瘤、眼科疾病(年齡增長所引起的黃斑變性和青光眼)的診斷,以及對組織學(xué)、放射學(xué)和心電圖圖像的解釋。
該團(tuán)隊(duì)認(rèn)為,如果用 AI 協(xié)助放射科醫(yī)生重新設(shè)計(jì)乳腺癌篩查流程,而不是與放射科醫(yī)生競爭、取代放射科醫(yī)生,也許是一種更有潛力的研究方式。比如,我們可以用 AI 技術(shù)預(yù)先篩選簡單的常規(guī) X 光照片,以及對遺漏病例進(jìn)行補(bǔ)充篩選。同樣地,在糖尿病眼部篩查中,越來越多的證據(jù)表明,AI 可以篩選出哪些是需要人類審核員查看的圖像,哪些是可以直接返回給女性的圖像
關(guān)鍵詞: AI 疾病診斷 英國 權(quán)威醫(yī)學(xué)期刊 醫(yī)療AI