縮小用于建模語言的大規(guī)模神經網絡
一種新的方法可以降低計算成本,并增加對最新自然語言處理的可訪問性。您不需要用大錘敲碎螺母。喬納森·弗蘭克(Jonathan Frankle)正在研究人工智能,而不是開心果,但他的“彩票假設”也采用了相同的哲學。假設隱藏在大規(guī)模神經網絡中的精益子網可以更有效地完成相同的任務。訣竅是找到那些被稱為中獎彩票的“幸運”子網。
深度學習神經網絡可能規(guī)模龐大,需要強大的計算能力。在對彩票假說的測試中,麻省理工學院的研究人員發(fā)現了隱藏在BERT模型中的更精簡,更有效的子網。圖片來源:麻省理工學院Jose-Luis Olivares
在一篇新論文中,Frankle及其同事發(fā)現了潛伏在BERT中的此類子網,BERT是一種用于自然語言處理(NLP)的先進神經網絡方法。作為人工智能的一個分支,NLP旨在通過預測文本生成或在線聊天機器人等應用程序來解密和分析人類語言。在計算方面,BERT體積龐大,通常需要大多數用戶無法獲得的超級計算能力。訪問BERT的中獎彩票可以公平地進行比賽,從而可能使更多用戶在智能手機上開發(fā)有效的NLP工具-無需大錘。
弗蘭克勒說:“我們正在達到必須使這些模型更精簡,更高效的地步。”他補充說,這一進步有一天可能會“減少NLP的準入門檻”。
麻省理工學院計算機科學與人工智能實驗室的邁克爾·卡賓小組的博士生Frankle是該研究的共同作者,該研究將于下個月在神經信息處理系統(tǒng)會議上發(fā)表。德克薩斯大學奧斯汀分校的陳天龍是該論文的主要作者,其中包括得克薩斯州A&M的合作者Wang Zhangyang Wang,以及所有MIT-IBM Watson AI Lab的合作者Chang Shiyu,Sisi Liu和Zhang Zhang 。
您今天可能已經與BERT網絡進行了互動。這是Google搜索引擎的基礎技術之一,自Google于2018年發(fā)布BERT以來,它一直引起研究人員的興奮。BERT是一種創(chuàng)建神經網絡的方法,即使用分層節(jié)點或“神經元”的算法來學習執(zhí)行神經網絡。通過培訓大量實例來完成任務。BERT是通過反復嘗試填寫寫作段落中遺漏的單詞來進行訓練的,它的功能在于此初始訓練數據集的龐大大小。然后,用戶可以將BERT的神經網絡微調至特定任務,例如構建客戶服務聊天機器人。但是爭吵的BERT需要大量的處理能力。
“如今,標準的BERT模型(花園品種)具有3.4億個參數,” Frankle說,并補充說,這個數字可以達到10億。對如此龐大的網絡進行微調可能需要一臺超級計算機。“這簡直太貴了。這遠遠超出了您或我的計算能力。”
陳同意。他說,盡管BERT迅速流行,但此類模型“仍受龐大的網絡規(guī)模的影響”。幸運的是,“彩票假設似乎是一種解決方案。”
為了削減計算成本,Chen和他的同事試圖找出隱藏在BERT中的較小模型。他們通過迭代修剪整個BERT網絡的參數進行了實驗,然后將新子網的性能與原始BERT模型的性能進行了比較。他們對一系列NLP任務進行了此比較,從回答問題到填充句子中的空白詞。
研究人員發(fā)現,根據任務的不同,成功的子網比最初的BERT模型瘦40%至90%。此外,他們能夠在運行任何針對任務的微調之前識別出那些中獎彩票,這一發(fā)現可以進一步降低NLP的計算成本。在某些情況下,為一項任務選擇的子網可以重新用于另一項任務,盡管Frankle指出這種可移植性并不普遍。盡管如此,弗蘭克勒還是對該小組的結果感到滿意。
他說:“我什至為這項工作感到震驚。” “這不是我想當然的事情。我期待比我們得到的結果更混亂。”
Facebook AI Research的科學家阿里·莫爾科斯(Ari Morcos)認為,在BERT模式中發(fā)現中獎彩票是“令人信服的”。“這些模型正在變得越來越普遍,” Morcos說。“因此,了解彩票假設是否成立很重要。” 他補充說,這一發(fā)現可能使類似BERT的模型使用更少的計算能力運行,“鑒于這些超大型模型當前的運行成本非常高,這可能會產生很大的影響。”
弗蘭克(Frankle)同意。他希望這項工作可以使BERT更加易于使用,因為它逆轉了NLP模型不斷增長的趨勢。他說:“我不知道我們可以使用這些超級計算機式的計算來做多大的事情。” “我們將不得不減少進入壁壘。” 確定一個精簡的,贏得彩票的子網可以做到這一點-允許缺乏Google或Facebook計算能力的開發(fā)人員仍然可以執(zhí)行最先進的NLP。弗蘭克勒說:“希望這將降低成本,這將使每個人都更容易使用…………那些只有一臺筆記本電腦的小家伙。” “對我來說,真是令人興奮。”
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
安徽淮南長安獵手K50作為一款備受關注的皮卡車型,其2025款在配置和性能上都有所升級。對于想要購買這款車的消...瀏覽全文>>
-
安徽阜陽的大眾高爾夫GTI作為一款備受年輕消費者喜愛的性能車型,其價格和配置一直是大家關注的重點。高爾夫GT...瀏覽全文>>
-
近年來,新能源汽車市場發(fā)展迅猛,大眾品牌憑借其深厚的技術積累和可靠的產品品質,在國內市場上占據了重要地...瀏覽全文>>
-
QQ多米作為一款備受關注的小型車,憑借其時尚的外觀設計和實用的配置,吸引了眾多消費者的關注。為了幫助大家...瀏覽全文>>
-
隨著新能源汽車市場的持續(xù)升溫,上汽大眾ID 6 X憑借其寬敞的7座空間和出色的續(xù)航能力,成為不少家庭用戶的關...瀏覽全文>>
-
淮南途銳新能源2024款車型以其卓越的性能和環(huán)保特性吸引了眾多消費者的關注。作為一款高端插電式混合動力SUV,...瀏覽全文>>
-
近年來,隨著新能源汽車的普及和政策支持的不斷加大,越來越多消費者將目光投向了插電混動車型。作為一款備受...瀏覽全文>>
-
2025款生活家PHEV作為一款備受關注的新能源車型,憑借其出色的性能和環(huán)保特性,吸引了眾多消費者的目光。在購...瀏覽全文>>
-
長安汽車旗下高端新能源品牌——啟源,在2024款新車的推出中再次吸引了廣泛關注。作為該品牌的旗艦車型之一,...瀏覽全文>>
-
近年來,新能源汽車市場持續(xù)火熱,各大品牌紛紛推出新款車型以滿足消費者需求。在眾多選擇中,2025款安徽池州I...瀏覽全文>>
- iPhone用戶現在可以通過iOS18.1更新更改其Apple帳戶的主要電子郵件地址
- 當你看到T-Mobile用戶贏得手機手表和耳機時你會羨慕不已
- Ubuntu24.10OracularOriole推出最新內核工具鏈GNOME47和增強的安全性
- 搭載M4的MacBookPro在Cinebench上擊敗了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能強大的159美元UBoomX便攜式揚聲器
- iPhone16Pro iPhone16ProMax表現優(yōu)于基本機型扭轉了之前的趨勢
- Waze迎來魔獸世界改版
- SquareEnix將心愛的RPG移植到MetaQuest3
- 蘋果正在設計全新操作系統(tǒng)瞄準新類別的產品
- 小米RedmiA27U顯示器采用4K面板和90WUSBC端口
- 蘋果將為iPhone17系列采用新電池技術
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements軟件的永久許可
- AppleiPhoneSE4將配備更新的OLED顯示屏
- InfinixZeroFlip首次亮相作為新款可折疊Android智能手機其價格低于摩托羅拉Razr2024
- OnePlus13型號 充電規(guī)格在最新泄漏中被登記
- Insta360AcePro2主要規(guī)格終于泄露GoPro和DJI運動相機競爭對手將配備50MP傳感器5nm和2倍數碼變焦
- XboxElite無線控制器系列2通過Xbox設計實驗室獲得透明面板
- 索尼INZONEM10S華碩ROGSwiftOLEDPG27AQDP新品上市但售價更高
- 谷歌終止PixelBuds的點擊通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 對AppleIntelligence功能的評價從一般到還可以
- GalaxyS25Plus看起來很時髦但三星是否選擇像iPhone一樣的通用設計
- 優(yōu)質48英寸三星S90DOLED電視在亞馬遜上降至歷史最低價同時贈送100美元Xbox禮品卡和1年保護計劃
- AOC推出四款新型游戲顯示器具有快速刷新率和低價格
- Valve出售部分SteamDeck型號-GBLCD型號售價296.65美元512GBLCD型號售價336.75美元
- Beats在其產品線中增加了手機保護殼推出適用于iPhone16系列的MagSafe保護殼
- 三星在IFA2024上展示AI產品
- 新的AIPlaygroundDesign工具你可以簡單地與之交談就像ChatGPT一樣
- 極簡主義Linux發(fā)行版Peropesis2.7附帶存檔和ISO管理工具
- GAMEBABY控制器和外殼混合套裝現已接受預訂