描述單個(gè)機(jī)器學(xué)習(xí)模型決策的框架
現(xiàn)代機(jī)器學(xué)習(xí)模型,例如神經(jīng)網(wǎng)絡(luò),通常被稱為“黑匣子”,因?yàn)樗鼈兎浅?fù)雜,以至于即使是設(shè)計(jì)它們的研究人員也無法完全理解它們是如何做出預(yù)測的。
為了提供一些見解,研究人員使用試圖描述單個(gè)模型決策的解釋方法。例如,他們可能會(huì)在電影評論中突出顯示影響模型決定評論是正面的單詞。
但是,如果人類不能輕易理解,甚至誤解它們,這些解釋方法就沒有任何用處。因此,麻省理工學(xué)院的研究人員創(chuàng)建了一個(gè)數(shù)學(xué)框架來正式量化和評估機(jī)器學(xué)習(xí)模型解釋的可理解性。如果研究人員僅評估少數(shù)個(gè)別解釋以嘗試?yán)斫庹麄€(gè)模型,這有助于查明可能遺漏的模型行為見解。
“有了這個(gè)框架,我們不僅可以非常清楚地了解我們從這些本地解釋中對模型的了解,更重要的是,我們不了解它,”電氣工程和計(jì)算機(jī)科學(xué)專業(yè)的畢業(yè)生Yilun Zhou 說計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室 (CSAIL) 的學(xué)生,也是介紹該框架的論文的主要作者。
周的合著者包括微軟研究院高級(jí)研究員 Marco Tulio Ribeiro 和高級(jí)作者、航空航天學(xué)教授、CSAIL 交互式機(jī)器人組主任 Julie Shah。該研究將在計(jì)算語言學(xué)協(xié)會(huì)北美分會(huì)會(huì)議上發(fā)表。
了解當(dāng)?shù)氐慕忉?/p>
理解機(jī)器學(xué)習(xí)模型的一種方法是找到另一個(gè)模仿其預(yù)測但使用透明推理模式的模型。然而,最近的神經(jīng)網(wǎng)絡(luò)模型非常復(fù)雜,以至于這種技術(shù)通常會(huì)失敗。相反,研究人員求助于使用關(guān)注個(gè)人輸入的本地解釋。通常,這些解釋會(huì)突出顯示文本中的單詞,以表明它們對模型做出的一個(gè)預(yù)測的重要性。
然后,人們隱含地將這些局部解釋推廣到整體模型行為。有人可能會(huì)看到,當(dāng)模型確定電影評論具有積極情緒時(shí),局部解釋方法突出顯示積極詞(如“難忘”、“完美無瑕”或“迷人”)是最有影響力的。然后他們可能會(huì)假設(shè)所有積極的詞都會(huì)對模型的預(yù)測做出積極的貢獻(xiàn),但情況可能并非總是如此,周說。
研究人員開發(fā)了一個(gè)框架,稱為 ExSum(解釋摘要的縮寫),將這些類型的聲明形式化為可以使用可量化指標(biāo)進(jìn)行測試的規(guī)則。ExSum 評估整個(gè)數(shù)據(jù)集上的規(guī)則,而不僅僅是為其構(gòu)造的單個(gè)實(shí)例。
使用圖形用戶界面,個(gè)人編寫可以調(diào)整、調(diào)整和評估的規(guī)則。例如,當(dāng)研究一個(gè)學(xué)習(xí)將電影評論分類為正面或負(fù)面的模型時(shí),人們可能會(huì)寫一條規(guī)則說“否定詞具有負(fù)面顯著性”,這意味著像“不”、“不”和“無”這樣的詞對電影評論的情緒產(chǎn)生負(fù)面影響。
使用 ExSum,用戶可以使用三個(gè)特定指標(biāo)查看該規(guī)則是否成立:覆蓋率、有效性和清晰度。覆蓋率衡量規(guī)則在整個(gè)數(shù)據(jù)集中的適用范圍。有效性突出顯示符合規(guī)則的單個(gè)示例的百分比。清晰度描述了規(guī)則的精確程度;一個(gè)高度有效的規(guī)則可能非常通用,以至于對理解模型沒有用處。
測試假設(shè)
如果研究人員想要更深入地了解她的模型的行為方式,她可以使用 ExSum 來測試特定的假設(shè),Zhou 說。
如果她懷疑她的模型在性別方面具有歧視性,她可以制定規(guī)則說男性代詞有正貢獻(xiàn),女性代詞有負(fù)貢獻(xiàn)。如果這些規(guī)則具有很高的有效性,則意味著它們總體上是正確的,并且模型可能存在偏差。
ExSum 還可以揭示有關(guān)模型行為的意外信息。例如,在評估電影評論分類器時(shí),研究人員驚訝地發(fā)現(xiàn),與正面詞相比,負(fù)面詞往往對模型的決策有更尖銳和更尖銳的貢獻(xiàn)。周解釋說,這可能是由于評論作家在批評電影時(shí)試圖保持禮貌而不那么直率。
“要真正確認(rèn)你的理解,你需要在很多情況下更嚴(yán)格地評估這些說法。據(jù)我們所知,這種細(xì)粒度級(jí)別的理解在以前的作品中從未發(fā)現(xiàn)過,”他說。
“從本地解釋到全球理解是文獻(xiàn)中的一個(gè)巨大差距。ExSum 是填補(bǔ)這一差距的良好第一步,”Ribeiro 補(bǔ)充道。
擴(kuò)展框架
在未來,周希望通過將可理解性的概念擴(kuò)展到其他標(biāo)準(zhǔn)和解釋形式,如反事實(shí)解釋(表明如何修改輸入以改變模型預(yù)測)來建立這項(xiàng)工作。目前,他們專注于特征歸因方法,這些方法描述了模型用于做出決策的各個(gè)特征(如電影評論中的文字)。
此外,他希望進(jìn)一步增強(qiáng)框架和用戶界面,以便人們可以更快地創(chuàng)建規(guī)則。編寫規(guī)則可能需要數(shù)小時(shí)的人工參與——而某種程度的人工參與至關(guān)重要,因?yàn)槿祟愖罱K必須能夠掌握解釋——但人工智能的幫助可以簡化這一過程。
在思考 ExSum 的未來時(shí),周希望他們的工作強(qiáng)調(diào)需要改變研究人員對機(jī)器學(xué)習(xí)模型解釋的看法。
“在這項(xiàng)工作之前,如果你有一個(gè)正確的本地解釋,你就完成了。你已經(jīng)達(dá)到了解釋你的模型的圣杯。我們提出了這個(gè)額外的維度來確保這些解釋是可以理解的??衫斫庑孕枰蔀樵u估的另一個(gè)指標(biāo)我們的解釋,”周說。
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
安徽淮南長安獵手K50作為一款備受關(guān)注的皮卡車型,其2025款在配置和性能上都有所升級(jí)。對于想要購買這款車的消...瀏覽全文>>
-
安徽阜陽的大眾高爾夫GTI作為一款備受年輕消費(fèi)者喜愛的性能車型,其價(jià)格和配置一直是大家關(guān)注的重點(diǎn)。高爾夫GT...瀏覽全文>>
-
近年來,新能源汽車市場發(fā)展迅猛,大眾品牌憑借其深厚的技術(shù)積累和可靠的產(chǎn)品品質(zhì),在國內(nèi)市場上占據(jù)了重要地...瀏覽全文>>
-
QQ多米作為一款備受關(guān)注的小型車,憑借其時(shí)尚的外觀設(shè)計(jì)和實(shí)用的配置,吸引了眾多消費(fèi)者的關(guān)注。為了幫助大家...瀏覽全文>>
-
隨著新能源汽車市場的持續(xù)升溫,上汽大眾ID 6 X憑借其寬敞的7座空間和出色的續(xù)航能力,成為不少家庭用戶的關(guān)...瀏覽全文>>
-
淮南途銳新能源2024款車型以其卓越的性能和環(huán)保特性吸引了眾多消費(fèi)者的關(guān)注。作為一款高端插電式混合動(dòng)力SUV,...瀏覽全文>>
-
近年來,隨著新能源汽車的普及和政策支持的不斷加大,越來越多消費(fèi)者將目光投向了插電混動(dòng)車型。作為一款備受...瀏覽全文>>
-
2025款生活家PHEV作為一款備受關(guān)注的新能源車型,憑借其出色的性能和環(huán)保特性,吸引了眾多消費(fèi)者的目光。在購...瀏覽全文>>
-
長安汽車旗下高端新能源品牌——啟源,在2024款新車的推出中再次吸引了廣泛關(guān)注。作為該品牌的旗艦車型之一,...瀏覽全文>>
-
近年來,新能源汽車市場持續(xù)火熱,各大品牌紛紛推出新款車型以滿足消費(fèi)者需求。在眾多選擇中,2025款安徽池州I...瀏覽全文>>
- iPhone用戶現(xiàn)在可以通過iOS18.1更新更改其Apple帳戶的主要電子郵件地址
- 當(dāng)你看到T-Mobile用戶贏得手機(jī)手表和耳機(jī)時(shí)你會(huì)羨慕不已
- Ubuntu24.10OracularOriole推出最新內(nèi)核工具鏈GNOME47和增強(qiáng)的安全性
- 搭載M4的MacBookPro在Cinebench上擊敗了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能強(qiáng)大的159美元UBoomX便攜式揚(yáng)聲器
- iPhone16Pro iPhone16ProMax表現(xiàn)優(yōu)于基本機(jī)型扭轉(zhuǎn)了之前的趨勢
- Waze迎來魔獸世界改版
- SquareEnix將心愛的RPG移植到MetaQuest3
- 蘋果正在設(shè)計(jì)全新操作系統(tǒng)瞄準(zhǔn)新類別的產(chǎn)品
- 小米R(shí)edmiA27U顯示器采用4K面板和90WUSBC端口
- QQ多米落地價(jià),各配置車型售價(jià)一目了然
- 生活家PHEV多少錢?購車攻略在此
- 現(xiàn)代伊蘭特試駕,暢享豪華駕乘,體驗(yàn)卓越性能
- 試駕領(lǐng)克03,從預(yù)約到試駕的完美旅程
- QQ多米最新價(jià)格2025款,各配置車型售價(jià)全揭曉,性價(jià)比之王
- 淮北途觀L多少錢 2025款落地價(jià),價(jià)格再創(chuàng)新低,性價(jià)比爆棚
- 山東濟(jì)南帕薩特新能源新款價(jià)格2025款多少錢?最低售價(jià)17.715萬起,性價(jià)比大揭秘
- SWM斯威G01FF新款價(jià)格2024款多少錢?看完這篇購車攻略再做決定
- 淮南ID.4 X價(jià)格,最低售價(jià)13.9888萬起,價(jià)格再創(chuàng)新低
- 滁州途鎧多少錢 2023款落地價(jià)與配置的完美平衡
- 蘋果將為iPhone17系列采用新電池技術(shù)
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements軟件的永久許可
- AppleiPhoneSE4將配備更新的OLED顯示屏
- InfinixZeroFlip首次亮相作為新款可折疊Android智能手機(jī)其價(jià)格低于摩托羅拉Razr2024
- OnePlus13型號(hào) 充電規(guī)格在最新泄漏中被登記
- Insta360AcePro2主要規(guī)格終于泄露GoPro和DJI運(yùn)動(dòng)相機(jī)競爭對手將配備50MP傳感器5nm和2倍數(shù)碼變焦
- XboxElite無線控制器系列2通過Xbox設(shè)計(jì)實(shí)驗(yàn)室獲得透明面板
- 索尼INZONEM10S華碩ROGSwiftOLEDPG27AQDP新品上市但售價(jià)更高
- 谷歌終止PixelBuds的點(diǎn)擊通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 對AppleIntelligence功能的評價(jià)從一般到還可以
- GalaxyS25Plus看起來很時(shí)髦但三星是否選擇像iPhone一樣的通用設(shè)計(jì)
- 優(yōu)質(zhì)48英寸三星S90DOLED電視在亞馬遜上降至歷史最低價(jià)同時(shí)贈(zèng)送100美元Xbox禮品卡和1年保護(hù)計(jì)劃
- AOC推出四款新型游戲顯示器具有快速刷新率和低價(jià)格
- Valve出售部分SteamDeck型號(hào)-GBLCD型號(hào)售價(jià)296.65美元512GBLCD型號(hào)售價(jià)336.75美元
- Beats在其產(chǎn)品線中增加了手機(jī)保護(hù)殼推出適用于iPhone16系列的MagSafe保護(hù)殼
- 三星在IFA2024上展示AI產(chǎn)品
- 新的AIPlaygroundDesign工具你可以簡單地與之交談就像ChatGPT一樣
- 極簡主義Linux發(fā)行版Peropesis2.7附帶存檔和ISO管理工具
- GAMEBABY控制器和外殼混合套裝現(xiàn)已接受預(yù)訂