一種提高人工智能公平性和準(zhǔn)確性的技術(shù)

2022-07-26 17:09:42 來(lái)源：用戶：

使機(jī)器學(xué)習(xí)模型的預(yù)測(cè)總體上更準(zhǔn)確的方法可能會(huì)降低代表性不足的子組的準(zhǔn)確性。一種新方法可以提供幫助。對(duì)于使用機(jī)器學(xué)習(xí)模型幫助他們做出決策的工作人員來(lái)說(shuō)，知道何時(shí)信任模型的預(yù)測(cè)并不總是那么容易，尤其是因?yàn)檫@些模型通常非常復(fù)雜，以至于它們的內(nèi)部運(yùn)作仍然是個(gè)謎。

用戶有時(shí)會(huì)使用一種稱為選擇性回歸的技術(shù)，其中模型估計(jì)每個(gè)預(yù)測(cè)的置信水平，并在其置信度過(guò)低時(shí)拒絕預(yù)測(cè)。然后人類可以檢查這些案例，收集更多信息，并手動(dòng)對(duì)每個(gè)案例做出決定。

但是，雖然選擇性回歸已被證明可以提高模型的整體性能，但麻省理工學(xué)院和MIT-IBMWatsonAI實(shí)驗(yàn)室的研究人員發(fā)現(xiàn)，該技術(shù)可能對(duì)數(shù)據(jù)集中代表性不足的人群產(chǎn)生相反的效果。隨著模型的置信度隨著選擇性回歸的增加而增加，其做出正確預(yù)測(cè)的機(jī)會(huì)也會(huì)增加，但這并不總是發(fā)生在所有子組中。

例如，一個(gè)建議貸款批準(zhǔn)的模型平均可能會(huì)產(chǎn)生更少的錯(cuò)誤，但它實(shí)際上可能會(huì)對(duì)黑人或女性申請(qǐng)人做出更多錯(cuò)誤的預(yù)測(cè)。發(fā)生這種情況的一個(gè)原因是模型的置信度度量是使用代表人數(shù)過(guò)多的組進(jìn)行訓(xùn)練的，并且對(duì)于這些代表人數(shù)不足的組可能不準(zhǔn)確。

一旦他們發(fā)現(xiàn)了這個(gè)問(wèn)題，麻省理工學(xué)院的研究人員就開(kāi)發(fā)了兩種算法來(lái)解決這個(gè)問(wèn)題。他們使用真實(shí)世界的數(shù)據(jù)集表明，這些算法減少了影響邊緣化子組的性能差異。

“最終，這是關(guān)于你將哪些樣本交給人類來(lái)處理的更智能。我們希望確保巧妙地考慮跨組的錯(cuò)誤率，而不是僅僅最小化模型的一些廣泛的錯(cuò)誤率，”麻省理工學(xué)院高級(jí)作者、電氣工程和計(jì)算機(jī)科學(xué)系住友工程學(xué)教授GregWornell說(shuō)(EECS)，他領(lǐng)導(dǎo)電子研究實(shí)驗(yàn)室(RLE)的信號(hào)、信息和算法實(shí)驗(yàn)室，并且是MIT-IBMWatsonAI實(shí)驗(yàn)室的成員。

加入Wornell的還有共同主要作者AbhinShah(EECS研究生)和YuhengBu(RLE博士后);以及MIT-IBMWatsonAI實(shí)驗(yàn)室的研究人員JoshuaKa-WingLeeSM'17、ScD'21和SubhroDas、RameswarPanda和PrasannaSattigeri。該論文將在國(guó)際機(jī)器學(xué)習(xí)會(huì)議上發(fā)表。

回歸是一種估計(jì)因變量和自變量之間關(guān)系的技術(shù)。在機(jī)器學(xué)習(xí)中，回歸分析通常用于預(yù)測(cè)任務(wù)，例如根據(jù)房屋的特征(臥室數(shù)量、平方英尺等)預(yù)測(cè)房屋的價(jià)格。通過(guò)選擇性回歸，機(jī)器學(xué)習(xí)模型可以做出兩種選擇之一對(duì)于每個(gè)輸入——如果它對(duì)其決策沒(méi)有足夠的信心，它可以做出預(yù)測(cè)或放棄預(yù)測(cè)。

當(dāng)模型棄權(quán)時(shí)，它會(huì)減少進(jìn)行預(yù)測(cè)的樣本比例，稱為覆蓋率。通過(guò)僅對(duì)它高度自信的輸入進(jìn)行預(yù)測(cè)，模型的整體性能應(yīng)該會(huì)提高。但這也會(huì)放大數(shù)據(jù)集中存在的偏差，當(dāng)模型沒(méi)有來(lái)自某些子組的足夠數(shù)據(jù)時(shí)，就會(huì)出現(xiàn)偏差。對(duì)于代表性不足的個(gè)人，這可能會(huì)導(dǎo)致錯(cuò)誤或錯(cuò)誤的預(yù)測(cè)。

麻省理工學(xué)院的研究人員旨在確保隨著模型的整體錯(cuò)誤率隨著選擇性回歸的提高而提高，每個(gè)子組的性能也會(huì)得到提高。他們稱之為單調(diào)選擇性風(fēng)險(xiǎn)。

“為這個(gè)特定問(wèn)題提出正確的公平概念是一項(xiàng)挑戰(zhàn)。但是通過(guò)執(zhí)行這個(gè)標(biāo)準(zhǔn)，單調(diào)選擇性風(fēng)險(xiǎn)，我們可以確保當(dāng)你減少覆蓋范圍時(shí)，模型性能實(shí)際上在所有子組中變得更好，”Shah說(shuō)。

一種算法保證模型用于進(jìn)行預(yù)測(cè)的特征包含有關(guān)數(shù)據(jù)集中敏感屬性的所有信息，例如種族和性別，這些信息與感興趣的目標(biāo)變量相關(guān)。敏感屬性是可能不用于決策的特征，通常是由于法律或組織政策。第二種算法采用校準(zhǔn)技術(shù)來(lái)確保模型對(duì)輸入做出相同的預(yù)測(cè)，無(wú)論是否將任何敏感屬性添加到該輸入。

研究人員通過(guò)將這些算法應(yīng)用于可用于高風(fēng)險(xiǎn)決策的真實(shí)數(shù)據(jù)集來(lái)測(cè)試這些算法。一是保險(xiǎn)數(shù)據(jù)集，用于使用人口統(tǒng)計(jì)數(shù)據(jù)預(yù)測(cè)向患者收取的年度醫(yī)療費(fèi)用總額;另一個(gè)是數(shù)據(jù)集，用于使用社會(huì)經(jīng)濟(jì)信息預(yù)測(cè)社區(qū)中的暴力數(shù)量。兩個(gè)數(shù)據(jù)集都包含個(gè)人的敏感屬性。

當(dāng)他們?cè)谟糜谶x擇性回歸的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)方法之上實(shí)施他們的算法時(shí)，他們通過(guò)降低每個(gè)數(shù)據(jù)集中少數(shù)子組的錯(cuò)誤率來(lái)減少差異。此外，這是在沒(méi)有顯著影響整體錯(cuò)誤率的情況下完成的。

“我們看到，如果我們不施加某些限制，在模型非常自信的情況下，它實(shí)際上可能會(huì)犯更多錯(cuò)誤，這在某些應(yīng)用中可能會(huì)非常昂貴，例如醫(yī)療保健。因此，如果我們扭轉(zhuǎn)趨勢(shì)并使其更直觀，我們會(huì)發(fā)現(xiàn)很多這樣的錯(cuò)誤。這項(xiàng)工作的一個(gè)主要目標(biāo)是避免錯(cuò)誤被悄無(wú)聲息地發(fā)現(xiàn)，”Sattigeri說(shuō)。

Shah說(shuō)，研究人員計(jì)劃將他們的解決方案應(yīng)用于其他應(yīng)用程序，例如預(yù)測(cè)房?jī)r(jià)、學(xué)生GPA或貸款利率，以查看算法是否需要針對(duì)這些任務(wù)進(jìn)行校準(zhǔn)。他們還想探索在模型訓(xùn)練過(guò)程中使用不太敏感信息的技術(shù)，以避免隱私問(wèn)題。

他們希望改進(jìn)選擇性回歸中的置信度估計(jì)，以防止模型置信度低但預(yù)測(cè)正確的情況。Sattigeri說(shuō)，這可以減少人類的工作量并進(jìn)一步簡(jiǎn)化決策過(guò)程。

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

一種提高人工智能公平性和準(zhǔn)確性的技術(shù)

欧美色在线视频播放视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲另类在线欧美制服