新工具簡化了數(shù)據(jù)共享 保護了隱私
認識X公司。X公司生產(chǎn)了一種受歡迎的產(chǎn)品,每天有數(shù)百萬人(實際上是數(shù)百萬人)在使用。某天,X公司決定要改進其產(chǎn)品(由供應(yīng)商Y生產(chǎn))中的某些硬件。要進行這些改進,公司需要與供應(yīng)商Y共享有關(guān)其客戶如何使用該產(chǎn)品的數(shù)據(jù)。
不幸的是,這些數(shù)據(jù)可能包含有關(guān)X公司客戶的個人信息,因此共享它們將侵犯他們的隱私。X公司不想這樣做,因此他們放棄了改進機會。
根據(jù)卡內(nèi)基梅隆大學(xué)CyLab和IBM研究人員撰寫的一項新研究,一種新工具可以幫助規(guī)避數(shù)據(jù)共享中的隱私問題。在當今的大數(shù)據(jù)世界中,公司,組織和政府都必須處理這個問題。這項研究將在本周的ACM Internet Measurement Conference上進行介紹,并在該會議的最佳論文獎中入圍。
一種用于避免破壞隱私的方法是合成模仿原始數(shù)據(jù)集的新數(shù)據(jù),同時保留敏感信息。但是,這說起來容易做起來難。
研究人員團隊創(chuàng)建了一個名為“ DoppelGANger”的新工具,該工具利用了生成對抗網(wǎng)絡(luò)或GAN,后者利用機器學(xué)習(xí)技術(shù)來合成與原始“訓(xùn)練”數(shù)據(jù)具有相同統(tǒng)計數(shù)據(jù)的數(shù)據(jù)集。
在他們評估的數(shù)據(jù)集上,使用DoppelGANger生成的合成數(shù)據(jù)訓(xùn)練的模型比使用來自競爭工具的訓(xùn)練的合成數(shù)據(jù)的模型高多達43%的準確性。
如今,大多數(shù)工具都需要復(fù)雜數(shù)學(xué)建模方面的專業(yè)知識,這為跨不同專業(yè)知識水平的數(shù)據(jù)共享創(chuàng)造了障礙。但是,由于GAN本身能夠跨不同的數(shù)據(jù)集和用例進行概括,因此DoppelGANger幾乎不需要數(shù)據(jù)集及其配置的先驗知識。研究人員說,這使該工具具有高度的靈活性,而靈活性是網(wǎng)絡(luò)安全情況下數(shù)據(jù)共享的關(guān)鍵。
CyLab的ECE教授和Lin的共同顧問Vyas Sekar說:“我們相信,未來的組織將需要靈活地利用所有可用數(shù)據(jù),以便對日益增長的數(shù)據(jù)驅(qū)動和自動攻擊環(huán)境做出反應(yīng)。” “從這個意義上說,任何促進數(shù)據(jù)共享的工具都是必不可少的。”
CyLab的Giulia Fanti,歐洲經(jīng)委會教授和林博士。聯(lián)合顧問還認為該工具對安全工程師很有幫助。
Fanti說:“合成網(wǎng)絡(luò)數(shù)據(jù)可用于幫助為網(wǎng)絡(luò)安全工程師創(chuàng)建現(xiàn)實的培訓(xùn)測試平臺,而無需暴露真實,敏感的數(shù)據(jù)。”
團隊的下一步是擴展工具的功能,因為盡管性能出色,但僅限于相對簡單的數(shù)據(jù)集。
Lin說:“許多網(wǎng)絡(luò)數(shù)據(jù)集比DoppelGANger當前所能處理的復(fù)雜得多。”
對于那些對使用該工具感興趣的人,DoppelGANger在Github上開源。該研究部分由美國國家科學(xué)基金會和陸軍研究實驗室贊助。
標簽: 數(shù)據(jù)共享