研究人員開發(fā)了多任務(wù)人工智能工具可以在創(chuàng)紀錄的時間內(nèi)提取癌癥數(shù)據(jù)
作為美國第二大死亡原因,癌癥是一種公共衛(wèi)生危機,一生中有將近二分之一的人罹患癌癥。癌癥也是一種令人難以忍受的復(fù)雜疾病。該國的癌癥登記處已記錄了影響70多個器官的數(shù)百種癌癥類型,這是有關(guān)個別癌癥病例信息的數(shù)據(jù)庫,可為醫(yī)生,研究人員和政策制定者提供重要的統(tǒng)計數(shù)據(jù)。
“人口級癌癥監(jiān)測對于監(jiān)測旨在預(yù)防,檢測和治療癌癥的公共衛(wèi)生計劃的有效性至關(guān)重要,”美國能源部健康數(shù)據(jù)科學(xué)研究所和國家計算科學(xué)中心主任吉娜·圖拉西(Gina Tourassi)說。橡樹嶺國家實驗室。“與國家癌癥研究所合作,我的團隊正在開發(fā)先進的人工智能解決方案,以通過自動化耗時的數(shù)據(jù)捕獲工作并提供近乎實時的癌癥報告來使國家癌癥監(jiān)測計劃現(xiàn)代化。”
通過數(shù)字癌癥登記處,科學(xué)家可以確定癌癥診斷和治療反應(yīng)的趨勢,從而有助于指導(dǎo)研究經(jīng)費和公共資源。但是,就像他們追蹤的疾病一樣,癌癥病理報告也很復(fù)雜。符號和語言的變化必須由經(jīng)過培訓(xùn)以分析報告的人類癌癥注冊商進行解釋。
為了更好地利用癌癥數(shù)據(jù)進行研究,ORNL的科學(xué)家正在開發(fā)一種基于人工智能的自然語言處理工具,以改善從文本病理報告中提取信息的能力。該項目是美國能源部與美國國家癌癥研究所(DOE)合作的一部分,該合作被稱為癌癥高級計算解決方案聯(lián)合設(shè)計(JDACS4C),該項目通過將癌癥數(shù)據(jù)與高級數(shù)據(jù)分析和高性能計算相結(jié)合來加速研究。
作為DOE最大的科學(xué)辦公室實驗室,ORNL擁有獨特的計算資源來應(yīng)對這一挑戰(zhàn)-包括世界上功能最強大的AI超級計算機和用于處理受保護信息(例如健康數(shù)據(jù))的安全數(shù)據(jù)環(huán)境。通過其監(jiān)視,流行病學(xué)和最終結(jié)果(SEER)計劃,NCI從癌癥登記處(例如路易斯安那州腫瘤登記處)接收數(shù)據(jù),其中包括針對個別癌癥病例的診斷和病理信息。
“手動提取信息的成本高,耗時且容易出錯,因此我們正在開發(fā)基于AI的工具,” ORNL計算與計算科學(xué)部研究科學(xué)家Mohammed Alawad說,該論文的主要作者 發(fā)表 在《美國國家 科學(xué)》雜志上美國醫(yī)學(xué)信息學(xué)協(xié)會(American Medical Informatics Association) 就該團隊的AI工具的結(jié)果。
在針對癌癥病理報告的第一篇文章中,該團隊開發(fā)了一個多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)或CNN(一種深度學(xué)習(xí)模型),該模型通過將語言作為二維數(shù)值進行處理來學(xué)習(xí)執(zhí)行任務(wù),例如識別文本主體中的關(guān)鍵詞。數(shù)據(jù)集。
“我們使用一種稱為單詞嵌入的通用技術(shù),該技術(shù)將每個單詞表示為一連串的數(shù)值,” Alawad說。
具有語義關(guān)系或共同傳達含義的詞在維空間中彼此接近,作為向量(具有大小和方向的值)。該文本數(shù)據(jù)被輸入到神經(jīng)網(wǎng)絡(luò)中,并根據(jù)在數(shù)據(jù)中找到連接的參數(shù)通過網(wǎng)絡(luò)層進行過濾。然后,隨著越來越多的數(shù)據(jù)被處理,這些參數(shù)會越來越多地被修改。
盡管某些單任務(wù)CNN模型已經(jīng)用于梳理病理報告,但是每種模型只能從報告中的信息范圍中提取一個特征。例如,可以訓(xùn)練單任務(wù)CNN僅提取原發(fā)癌部位,輸出檢測到癌癥的器官,例如肺,前列腺,膀胱等。但是要提取有關(guān)組織學(xué)等級或癌細胞生長的信息,將需要訓(xùn)練一個單獨的深度學(xué)習(xí)模型。
研究團隊通過開發(fā)一個網(wǎng)絡(luò)來擴展效率,該網(wǎng)絡(luò)可以在與單任務(wù)CNN大致相同的時間內(nèi)完成多個任務(wù)。該小組的神經(jīng)網(wǎng)絡(luò)同時提取五個特征的信息:主要部位(身體器官),側(cè)臥(右側(cè)或左側(cè)器官,如果適用),行為,組織學(xué)類型(細胞類型)和組織學(xué)等級(癌細胞生長的速度如何)或傳播)。
團隊的多任務(wù)CNN在相同的時間內(nèi)完成了所有五個任務(wù),并且勝過了單任務(wù)CNN,從而使其速度提高了五倍。但是,阿拉瓦德說:“速度不比速度快五倍。這是 n倍的速度。如果我們有 ñ 不同的任務(wù),那么將采取單ň日的每個任務(wù)的時間“。
團隊成功的關(guān)鍵是開發(fā)CNN架構(gòu),該架構(gòu)使各層可以跨任務(wù)共享信息,而不會降低效率或降低性能。
“這是計算效率和性能效率,” Alawad說。“如果我們使用單任務(wù)模型,那么我們需要為每個任務(wù)開發(fā)一個單獨的模型。但是,通過多任務(wù)學(xué)習(xí),我們只需要開發(fā)一個模型即可,但是開發(fā)這個模型并弄清楚體系結(jié)構(gòu)在計算上非常耗時。我們需要一臺超級計算機來進行模型開發(fā)。”
為了構(gòu)建高效的多任務(wù)CNN,他們呼吁使用世界上最強大,最智能的超級計算機– ORNL的200 petflop峰會超級計算機,該計算機具有超過27,600個經(jīng)過深度學(xué)習(xí)優(yōu)化的GPU。
該團隊首先開發(fā)了兩種類型的多任務(wù)CNN架構(gòu)-一種稱為“硬參數(shù)共享”的常見機器學(xué)習(xí)方法,另一種被稱為“十字繡”的圖像分類方法已經(jīng)顯示出一定的成功。硬參數(shù)共享在所有任務(wù)中使用相同的幾個參數(shù),而十字繡使用多個任務(wù)之間分散的參數(shù),從而導(dǎo)致必須將“輸出”在一起。
為了用真實的健康數(shù)據(jù)訓(xùn)練和測試多任務(wù)CNN,該團隊使用了ORNL的安全數(shù)據(jù)環(huán)境和路易斯安那州腫瘤登記處的95,000份病理報告。他們將其CNN與其他三個已建立的AI模型(包括單任務(wù)CNN)進行了比較。
“除了提供HPC和科學(xué)計算資源外,ORNL還可以訓(xùn)練和存儲安全數(shù)據(jù)-所有這些都很重要,” Alawad說。
在測試過程中,他們發(fā)現(xiàn)硬參數(shù)共享多任務(wù)模型優(yōu)于其他四個模型(包括十字繡多任務(wù)模型),并且通過減少計算時間和能耗來提高效率。與單任務(wù)CNN和常規(guī)AI模型相比,硬共享參數(shù)多任務(wù)CNN在短時間內(nèi)完成了挑戰(zhàn),并最準確地對五個癌癥特征中的每一個進行了分類。
“下一步是啟動一項大規(guī)模的用戶研究,該技術(shù)將在癌癥注冊機構(gòu)中部署,以確定在注冊機構(gòu)工作流程中最有效的集成方式。目標不是取代人類,而是擴大人類。”圖拉西說。
標簽: 人工智能工具