揭秘黑盒AI尚未準(zhǔn)備好迎接黃金時(shí)段的常用方法
解釋醫(yī)學(xué)圖像的人工智能模型有望提高臨床醫(yī)生做出準(zhǔn)確和及時(shí)診斷的能力,同時(shí)通過(guò)讓忙碌的醫(yī)生專注于關(guān)鍵病例并將死記硬背的任務(wù)委托給人工智能來(lái)減輕工作量。
但是,在診斷方式和原因方面缺乏透明度的AI模型可能會(huì)出現(xiàn)問(wèn)題。這種不透明的推理——也稱為“黑盒”人工智能——會(huì)降低臨床醫(yī)生對(duì)人工智能工具可靠性的信任,從而阻礙其使用。這種缺乏透明度也可能誤導(dǎo)臨床醫(yī)生過(guò)度信任該工具的解釋。
在醫(yī)學(xué)成像領(lǐng)域,創(chuàng)建更易于理解的AI模型和揭開(kāi)AI決策神秘面紗的一種方法是顯著性評(píng)估——一種使用熱圖來(lái)確定工具是否僅正確關(guān)注給定圖像的相關(guān)部分的方法或歸巢于其中不相關(guān)的部分。
熱圖通過(guò)突出顯示圖像上影響AI模型解釋的區(qū)域來(lái)工作。這可以幫助人類醫(yī)生了解人工智能模型是否關(guān)注與他們相同的區(qū)域,或者錯(cuò)誤地關(guān)注圖像上不相關(guān)的點(diǎn)。
但10月10日發(fā)表在《自然機(jī)器智能》雜志上的一項(xiàng)新研究表明,盡管他們做出了所有承諾,但顯著性熱圖可能還沒(méi)有準(zhǔn)備好迎接黃金時(shí)段。
該分析由哈佛醫(yī)學(xué)院研究員PranavRajpurkar、斯坦福大學(xué)的MatthewLungren和紐約大學(xué)的AdrielSaporta領(lǐng)導(dǎo),量化了七種廣泛使用的顯著性方法的有效性,以確定它們識(shí)別與常見(jiàn)診斷的10種疾病相關(guān)的病理的可靠性和準(zhǔn)確性在X射線上,例如肺部病變、胸腔積液、水腫或心臟結(jié)構(gòu)擴(kuò)大。為了確定性能,研究人員將工具的性能與人類專家判斷進(jìn)行了比較。
歸根結(jié)底,與人類放射科醫(yī)生相比,使用基于顯著性熱圖的工具在圖像評(píng)估和發(fā)現(xiàn)病理病變的能力方面始終表現(xiàn)不佳。
這項(xiàng)工作代表了顯著性圖和人類專家在評(píng)估多種X射線病理學(xué)方面的表現(xiàn)之間的第一次比較分析。該研究還提供了對(duì)圖像上的某些病理特征是否以及如何影響AI工具性能的詳細(xì)理解。
顯著性圖功能已被臨床實(shí)踐用作質(zhì)量保證工具,臨床實(shí)踐使用AI來(lái)解釋計(jì)算機(jī)輔助檢測(cè)方法,例如讀取胸部X光片。但研究人員表示,鑒于新發(fā)現(xiàn),應(yīng)謹(jǐn)慎應(yīng)用此功能并保持健康的懷疑態(tài)度。
“我們的分析表明,顯著性圖還不夠可靠,無(wú)法驗(yàn)證人工智能模型做出的個(gè)人臨床決策,”HMS生物醫(yī)學(xué)信息學(xué)助理教授Rajpurkar說(shuō)。“我們確定了在當(dāng)前實(shí)踐中使用會(huì)引起嚴(yán)重安全問(wèn)題的重要限制。”
研究人員警告說(shuō),由于研究中發(fā)現(xiàn)的重要限制,基于顯著性的熱圖在臨床AI模型中被廣泛采用之前應(yīng)該進(jìn)一步完善。
該團(tuán)隊(duì)的完整代碼庫(kù)、數(shù)據(jù)和分析是開(kāi)放的,所有有興趣研究醫(yī)學(xué)成像應(yīng)用中臨床機(jī)器學(xué)習(xí)這一重要方面的人都可以使用。
標(biāo)簽: