研究人員為數(shù)據(jù)挖掘中發(fā)現(xiàn)的敏感專有模式提供隱私保護(hù)
研究人員在數(shù)據(jù)挖掘過程中提高了隱私和專有信息或其他敏感信息的保護(hù),同時(shí)不影響在龐大數(shù)據(jù)集中發(fā)現(xiàn)有用模式的能力。該技術(shù)由重慶大學(xué)的一對(duì)計(jì)算機(jī)科學(xué)家開發(fā),在《大數(shù)據(jù)挖掘與分析》雜志上發(fā)表的一篇文章中進(jìn)行了描述。
數(shù)據(jù)挖掘、在非常大的數(shù)據(jù)集中發(fā)現(xiàn)模式(通常涉及機(jī)器學(xué)習(xí))以及出于有用目的共享該信息經(jīng)常會(huì)遇到障礙,因?yàn)榇祟悢?shù)據(jù)模式是專有的、破壞隱私或危及安全性。然而,這種數(shù)據(jù)共享或發(fā)布有助于進(jìn)一步發(fā)現(xiàn)有益于這些數(shù)據(jù)集所有者和整個(gè)社會(huì)的有用模式。
考慮一種非常常見的數(shù)據(jù)挖掘算法,用于發(fā)現(xiàn)大型數(shù)據(jù)集中變量之間的潛在有用關(guān)系:關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典(可能是虛構(gòu)的)示例涉及超市銷售的大型數(shù)據(jù)集,其中發(fā)現(xiàn)購買尿布的男性顧客也傾向于購買啤酒。這里的“規(guī)則”是啤酒、尿布和男性顧客的關(guān)聯(lián)。根據(jù)此規(guī)則,超市經(jīng)理可以為同時(shí)購買啤酒和尿布的人提供折扣套餐。
但是,如果競(jìng)爭(zhēng)對(duì)手使用超市共享的已發(fā)布數(shù)據(jù)集來發(fā)現(xiàn)這個(gè)“規(guī)則”以增強(qiáng)進(jìn)一步的模式發(fā)現(xiàn),他們可以通過提供相同的折扣策略從原來的超市搶走顧客。因此,“尿布即啤酒”規(guī)則具有商業(yè)敏感性,需要在超市愿意發(fā)布其數(shù)據(jù)供其他人使用之前受到保護(hù)。
換句話說,如果要鼓勵(lì)更多的數(shù)據(jù)共享,就需要有一種方法允許對(duì)非敏感關(guān)聯(lián)規(guī)則(NAR)進(jìn)行數(shù)據(jù)挖掘,同時(shí)防止數(shù)據(jù)挖掘發(fā)現(xiàn)敏感關(guān)聯(lián)規(guī)則(SARS)。
為了解決敏感的關(guān)聯(lián)規(guī)則問題,研究人員過去曾提出通過在發(fā)現(xiàn)后在任何數(shù)據(jù)集共享之前簡(jiǎn)單地隱藏敏感信息來保護(hù)敏感信息。這是通過降低數(shù)據(jù)集中任何暗示關(guān)聯(lián)規(guī)則的數(shù)據(jù)出現(xiàn)的頻率來實(shí)現(xiàn)的。然而,這不是很實(shí)用,因?yàn)槿魏螘r(shí)候只能保護(hù)一個(gè)這樣的SAR,而且該技術(shù)無論如何都不能提供強(qiáng)大的數(shù)據(jù)隱私。
其他研究人員試圖將SAR問題轉(zhuǎn)化為單一目標(biāo)優(yōu)化問題——為特定標(biāo)準(zhǔn)找到最佳解決方案。這加強(qiáng)了數(shù)據(jù)隱私,但降低了數(shù)據(jù)集的效用。另一種方法是在對(duì)數(shù)據(jù)集執(zhí)行任何數(shù)據(jù)挖掘之前對(duì)數(shù)據(jù)進(jìn)行加密,但這可能非常耗時(shí),尤其是在特別大的數(shù)據(jù)集上實(shí)施時(shí)——這些數(shù)據(jù)集更有可能發(fā)現(xiàn)感興趣的模式。
因此,重慶研究人員希望找到一種解決方案,既能降低隱私泄露的可能性,又能提高數(shù)據(jù)效用,同時(shí)限制這種技術(shù)所需的時(shí)間。
他們的解決方案,他們稱之為“可挖掘數(shù)據(jù)發(fā)布的優(yōu)化清理方法”,或簡(jiǎn)稱為SA-MDP,認(rèn)識(shí)到任何SAR問題的解決方案都需要在數(shù)據(jù)效用和數(shù)據(jù)隱私之間找到一個(gè)可接受的折衷方案,而不是解決一個(gè)問題?;蛄硪粋€(gè)獨(dú)立。這是一個(gè)多目標(biāo)優(yōu)化問題,而不是一個(gè)單目標(biāo)優(yōu)化問題——必須優(yōu)化多個(gè)目標(biāo)。雖然從物流到工程的許多領(lǐng)域經(jīng)常面臨這樣的問題,但它們本質(zhì)上是棘手的。想要在方便的一天找到最便宜的機(jī)票、最舒適的座位、最短的旅程、最少的停留時(shí)間的旅行者面臨著一個(gè)多目標(biāo)優(yōu)化問題。挑戰(zhàn)在于,沒有一種單一的解決方案可以同時(shí)優(yōu)化這些目標(biāo)中的每一個(gè)。相反,可能有許多,甚至可能有無數(shù)個(gè)同樣好的最佳“候選”解決方案。
對(duì)于SA-MDP,研究人員設(shè)計(jì)了一種定制的“粒子群優(yōu)化”(PSO)算法來有效地解決這個(gè)多目標(biāo)優(yōu)化問題。PSO方法是一種受生物學(xué)啟發(fā)的算法,最初是在1990年代由研究人員發(fā)現(xiàn)的,旨在模擬鳥群或魚群等成群結(jié)隊(duì)的動(dòng)物的社會(huì)行為。但研究人員發(fā)現(xiàn),他們的算法實(shí)際上是在執(zhí)行優(yōu)化計(jì)算來解決群體問題。在PSO下,一大群候選解決方案在“搜索空間”(算法搜索的集合)中被視為像鳥群中的鳥一樣的粒子。根據(jù)控制粒子的一些基本數(shù)學(xué)規(guī)則在搜索空間內(nèi)移動(dòng)這些粒子
為了提高SA-MDP的探索能力,該技術(shù)還引入了粒子分裂的概念,使一個(gè)粒子可以產(chǎn)生多個(gè)“子粒子”。
為了加快這個(gè)過程,該方法涉及一種新的預(yù)處理機(jī)制,可以刪除任何不相關(guān)的事務(wù),從而可以減小搜索空間的大小。
在設(shè)計(jì)了新方法后,研究人員隨后在此類測(cè)試中常用的幾個(gè)公開可用的數(shù)據(jù)集上對(duì)其進(jìn)行了測(cè)試——一組國(guó)際象棋動(dòng)作、一個(gè)用于將其分類為可食用或有毒的蘑菇屬性數(shù)據(jù)集,以及一系列點(diǎn)擊流(序列點(diǎn)擊的鏈接數(shù))網(wǎng)站的訪問者。他們發(fā)現(xiàn)他們的技術(shù)很容易擊敗競(jìng)爭(zhēng)對(duì)手。
“我們的方法提供了與隱藏敏感關(guān)聯(lián)規(guī)則的標(biāo)準(zhǔn)方法相同的隱私保護(hù),但具有更好的數(shù)據(jù)實(shí)用性,同時(shí)還能減少運(yùn)行時(shí)間,”重慶大學(xué)計(jì)算機(jī)科學(xué)家、該論文的合著者廖曉峰說。他的博士生范陽。
他們將這些結(jié)果與用于隱藏敏感關(guān)聯(lián)規(guī)則的布谷鳥搜索優(yōu)化算法或COA4ARH的結(jié)果進(jìn)行了比較,COA4ARH是一種在數(shù)據(jù)挖掘時(shí)用于隱藏敏感關(guān)聯(lián)規(guī)則(關(guān)聯(lián)規(guī)則隱藏)的常用算法。
他們發(fā)現(xiàn)他們的方法提供了與COA4ARH隱藏敏感規(guī)則的能力相同的保護(hù)效果,并在生成有用的關(guān)聯(lián)規(guī)則的能力上擊敗了它,同時(shí)將運(yùn)行時(shí)間縮短了一半。
標(biāo)簽: