保護機器學習模型的隱私
當您看到有關用于檢測健康問題的人工智能(AI)的頭條新聞時,通常這要歸功于醫(yī)院向研究人員提供數(shù)據(jù)。但是這樣的系統(tǒng)并不像它們可能的那樣健壯,因為這樣的數(shù)據(jù)通常僅來自一個組織。
可以理解的是,醫(yī)院對共享數(shù)據(jù)的謹慎態(tài)度可能會使數(shù)據(jù)泄露給競爭對手。解決該問題的現(xiàn)有努力包括“聯(lián)合學習”(FL)技術,該技術使分布式客戶端可以協(xié)作學習共享的機器學習模型,同時保持其培訓數(shù)據(jù)本地化。
但是,即使最前沿的FL方法也存在隱私問題,因為使用經(jīng)過訓練的模型的參數(shù)或權重可能泄漏有關數(shù)據(jù)集的信息。在這種情況下,要確保隱私,通常需要熟練的程序員花大量時間來調(diào)整參數(shù)-這對于大多數(shù)組織而言并不實際。
麻省理工學院CSAIL的一個小組認為,醫(yī)療機構(gòu)和其他組織將從他們的新系統(tǒng)PrivacyFL中受益,該系統(tǒng)可以用作安全,保護隱私的FL的真實世界模擬器。它的主要功能包括等待時間模擬,對客戶端離開的魯棒性,對集中式和分散式學習的支持以及基于差分隱私和安全的多方計算的可配置隱私和安全機制。
麻省理工學院首席研究科學家拉拉娜·卡加爾(Lalana Kagal)說,出于多種原因,模擬器對于聯(lián)合學習環(huán)境至關重要。
評估準確性。 SKagal說,這樣的系統(tǒng)“應該能夠模擬聯(lián)邦模型并將其準確性與本地模型進行比較。”
評估花費的總時間。遠程客戶端之間的通信可能會變得昂貴。模擬對于評估客戶端-客戶端和客戶端-服務器通信是否有益很有用。
評估收斂的近似界限以及收斂所需的時間。
模擬實時輟學。使用PrivacyFL的客戶可能會隨時退出。
我們正在使用從該模擬器中學到的經(jīng)驗教訓,開發(fā)一個可以在現(xiàn)實世界中使用的端對端聯(lián)合學習系統(tǒng),例如,合作醫(yī)院可以使用這種系統(tǒng)進行培訓具有隱私保護功能的強大模型可以預測復雜的疾病。
標簽: