可以學習人類語言模式的人工智能
人類語言是出了名的復雜,語言學家一直認為不可能像人類研究人員那樣教機器分析語音和單詞結構。但麻省理工學院、康奈爾大學和麥吉爾大學的研究人員已經朝著這個方向邁出了一步。他們展示了一種人工智能系統(tǒng),可以自行學習人類語言的規(guī)則和模式。
當給定單詞和這些單詞如何變化以用一種語言表達不同語法功能(如時態(tài)、大小寫或性別)的示例時,該機器學習模型會提出解釋這些單詞形式為何發(fā)生變化的規(guī)則。例如,它可能知道必須在詞尾添加字母“a”以使塞爾維亞-克羅地亞語中的男性形式女性化。
該模型還可以自動學習適用于多種語言的高級語言模式,使其能夠取得更好的效果。
研究人員使用語言學教科書中的問題對模型進行了訓練和測試,這些教科書包含58種不同的語言。每個問題都有一組單詞和相應的單詞形式變化。該模型能夠提出一組正確的規(guī)則來描述60%的問題的單詞形式變化。
該系統(tǒng)可用于研究語言假設并研究不同語言轉換單詞方式的細微相似之處。它特別獨特,因為系統(tǒng)發(fā)現(xiàn)了人類容易理解的模型,并從少量數(shù)據(jù)(例如幾十個單詞)中獲取這些模型。該系統(tǒng)不是使用一個龐大的數(shù)據(jù)集來完成一項任務,而是利用許多小型數(shù)據(jù)集,這更接近于科學家提出假設的方式——他們查看多個相關數(shù)據(jù)集并提出模型來解釋這些數(shù)據(jù)集中的現(xiàn)象。
“這項工作的動機之一是我們希望研究能夠學習以人類可以理解的方式表示的數(shù)據(jù)集模型的系統(tǒng)。模型可以學習表達或規(guī)則,而不是學習權重?我們想看看我們是否可以構建這個系統(tǒng),這樣它就可以在一系列相互關聯(lián)的數(shù)據(jù)集上進行學習,從而使系統(tǒng)學習一點關于如何更好地對每個數(shù)據(jù)集進行建模的知識,”康奈爾大學計算機科學助理教授、該研究的主要作者凱文·埃利斯說。紙。
與埃利斯一起撰寫論文的是麻省理工學院的語言學教授亞當奧爾布賴特。ArmandoSolar-Lezama,計算機科學與人工智能實驗室(CSAIL)教授兼副主任;JoshuaB.Tenenbaum,PaulE.Newton腦與認知科學系認知科學與計算職業(yè)發(fā)展教授,CSAIL成員;以及資深作者TimothyJ.O'Donnell,麥吉爾大學語言學系助理教授,Mila-Quebec人工智能研究所加拿大CIFARAI主席。
該研究今天發(fā)表在《自然通訊》上。
看語言
為了開發(fā)能夠從多個相關數(shù)據(jù)集中自動學習模型的AI系統(tǒng),研究人員選擇探索音韻學(聲音模式研究)和形態(tài)學(單詞結構研究)的相互作用。
來自語言學教科書的數(shù)據(jù)提供了一個理想的測試平臺,因為許多語言共享核心特征,而教科書問題展示了特定的語言現(xiàn)象。大學生也可以通過相當直接的方式解決教科書問題,但這些學生通常從他們用來推理新問題的過去課程中獲得有關音韻學的先驗知識。
埃利斯,他獲得了博士學位。在麻省理工學院,并由Tenenbaum和Solar-Lezama共同建議,首先在由當時是博士后的O'Donnell和Albright共同教授的麻省理工學院課程中學習了形態(tài)學和音韻學。
“語言學家認為,為了真正理解人類語言的規(guī)則,理解是什么使系統(tǒng)運轉,你必須是人類。我們想看看我們是否可以模仿那些知識和推理人類(語言學家)完成了這項任務,”奧爾布賴特說。
為了構建一個可以學習一組單詞組合規(guī)則(稱為語法)的模型,研究人員使用了一種稱為貝葉斯程序學習的機器學習技術。使用這種技術,模型通過編寫計算機程序來解決問題。
在這種情況下,程序是模型認為最有可能解釋語言學問題中的單詞和含義的語法。他們使用Sketch構建了模型,Sketch是一種流行的程序合成器,由Solar-Lezama在MIT開發(fā)。
但是Sketch可能需要很多時間來推理最有可能的程序。為了解決這個問題,研究人員讓模型一次工作一個,編寫一個小程序來解釋一些數(shù)據(jù),然后編寫一個更大的程序來修改該小程序以覆蓋更多數(shù)據(jù),等等。
他們還設計了模型,以便了解“好”程序的外觀。例如,它可能會學習一些關于簡單俄語問題的一般規(guī)則,這些規(guī)則將應用于波蘭語中更復雜的問題,因為語言相似。這使得模型更容易解決波蘭問題。
解決教科書問題
當他們使用70個教科書問題測試該模型時,它能夠在60%的情況下找到與問題中的整個單詞集匹配的語法,并在79%的問題中正確匹配大部分單詞形式的變化。
研究人員還嘗試使用它“應該”學習語言學課程的一些知識對模型進行預編程,并表明它可以更好地解決所有問題。
“這項工作的一個挑戰(zhàn)是弄清楚模型所做的事情是否合理。這不是只有一個數(shù)字是唯一正確答案的情況。有一系列可能的解決方案,你可能會認為是正確的,靠近右邊等等,”奧爾布賴特說。
該模型經常提出意想不到的解決方案。在一個例子中,它發(fā)現(xiàn)了一個波蘭語問題的預期答案,但也發(fā)現(xiàn)了另一個利用教科書錯誤的正確答案。埃利斯說,這表明該模型可以“調試”語言學分析。
研究人員還進行了測試,表明該模型能夠學習一些通用的語音規(guī)則模板,這些模板可以應用于所有問題。
“最令人驚訝的事情之一是我們可以跨語言學習,但這似乎并沒有產生很大的不同,”埃利斯說。“這表明了兩件事。也許我們需要更好的方法來學習跨問題。也許,如果我們不能想出這些方法,這項工作可以幫助我們探索我們對跨問題共享哪些知識的不同想法。”
未來,研究人員希望使用他們的模型為其他領域的問題找到意想不到的解決方案。他們還可以將該技術應用于更多可以跨相關數(shù)據(jù)集應用高級知識的情況。例如,埃利斯說,也許他們可以開發(fā)一個系統(tǒng),從數(shù)據(jù)集中推斷出不同物體運動的微分方程。
“這項工作表明,我們有一些方法可以在某種程度上學習歸納偏見。但我認為我們還沒有完全弄清楚,即使對于這些教科書問題,讓語言學家接受合理語法的歸納偏見并拒絕那些荒謬的,”他補充道。
“這項工作為未來的研究開辟了許多令人興奮的領域。我對Ellis及其同事(貝葉斯程序學習,BPL)探索的方法可能會說明嬰兒如何獲得語言的可能性特別感興趣,”T.FlorianJaeger說,羅切斯特大學腦與認知科學和計算機科學教授,他不是本文的作者。
“未來的工作可能會問,例如,在哪些額外的歸納偏差(關于通用語法的假設)下,BPL方法可以成功地在嬰兒在語言習得過程中觀察到的數(shù)據(jù)類型上實現(xiàn)類似人類的學習行為。我認為看到它會很有趣是否比Ellis和他的團隊考慮的更抽象的歸納偏差——例如源自人類信息處理限制的偏差(例如,依賴長度的內存限制或每次可以處理的信息量的容量限制))——足以引發(fā)在人類語言中觀察到的一些模式。”
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
安徽淮南長安獵手K50作為一款備受關注的皮卡車型,其2025款在配置和性能上都有所升級。對于想要購買這款車的消...瀏覽全文>>
-
安徽阜陽的大眾高爾夫GTI作為一款備受年輕消費者喜愛的性能車型,其價格和配置一直是大家關注的重點。高爾夫GT...瀏覽全文>>
-
近年來,新能源汽車市場發(fā)展迅猛,大眾品牌憑借其深厚的技術積累和可靠的產品品質,在國內市場上占據(jù)了重要地...瀏覽全文>>
-
QQ多米作為一款備受關注的小型車,憑借其時尚的外觀設計和實用的配置,吸引了眾多消費者的關注。為了幫助大家...瀏覽全文>>
-
隨著新能源汽車市場的持續(xù)升溫,上汽大眾ID 6 X憑借其寬敞的7座空間和出色的續(xù)航能力,成為不少家庭用戶的關...瀏覽全文>>
-
淮南途銳新能源2024款車型以其卓越的性能和環(huán)保特性吸引了眾多消費者的關注。作為一款高端插電式混合動力SUV,...瀏覽全文>>
-
近年來,隨著新能源汽車的普及和政策支持的不斷加大,越來越多消費者將目光投向了插電混動車型。作為一款備受...瀏覽全文>>
-
2025款生活家PHEV作為一款備受關注的新能源車型,憑借其出色的性能和環(huán)保特性,吸引了眾多消費者的目光。在購...瀏覽全文>>
-
長安汽車旗下高端新能源品牌——啟源,在2024款新車的推出中再次吸引了廣泛關注。作為該品牌的旗艦車型之一,...瀏覽全文>>
-
近年來,新能源汽車市場持續(xù)火熱,各大品牌紛紛推出新款車型以滿足消費者需求。在眾多選擇中,2025款安徽池州I...瀏覽全文>>
- iPhone用戶現(xiàn)在可以通過iOS18.1更新更改其Apple帳戶的主要電子郵件地址
- 當你看到T-Mobile用戶贏得手機手表和耳機時你會羨慕不已
- Ubuntu24.10OracularOriole推出最新內核工具鏈GNOME47和增強的安全性
- 搭載M4的MacBookPro在Cinebench上擊敗了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能強大的159美元UBoomX便攜式揚聲器
- iPhone16Pro iPhone16ProMax表現(xiàn)優(yōu)于基本機型扭轉了之前的趨勢
- Waze迎來魔獸世界改版
- SquareEnix將心愛的RPG移植到MetaQuest3
- 蘋果正在設計全新操作系統(tǒng)瞄準新類別的產品
- 小米RedmiA27U顯示器采用4K面板和90WUSBC端口
- 蘋果將為iPhone17系列采用新電池技術
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements軟件的永久許可
- AppleiPhoneSE4將配備更新的OLED顯示屏
- InfinixZeroFlip首次亮相作為新款可折疊Android智能手機其價格低于摩托羅拉Razr2024
- OnePlus13型號 充電規(guī)格在最新泄漏中被登記
- Insta360AcePro2主要規(guī)格終于泄露GoPro和DJI運動相機競爭對手將配備50MP傳感器5nm和2倍數(shù)碼變焦
- XboxElite無線控制器系列2通過Xbox設計實驗室獲得透明面板
- 索尼INZONEM10S華碩ROGSwiftOLEDPG27AQDP新品上市但售價更高
- 谷歌終止PixelBuds的點擊通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 對AppleIntelligence功能的評價從一般到還可以
- GalaxyS25Plus看起來很時髦但三星是否選擇像iPhone一樣的通用設計
- 優(yōu)質48英寸三星S90DOLED電視在亞馬遜上降至歷史最低價同時贈送100美元Xbox禮品卡和1年保護計劃
- AOC推出四款新型游戲顯示器具有快速刷新率和低價格
- Valve出售部分SteamDeck型號-GBLCD型號售價296.65美元512GBLCD型號售價336.75美元
- Beats在其產品線中增加了手機保護殼推出適用于iPhone16系列的MagSafe保護殼
- 三星在IFA2024上展示AI產品
- 新的AIPlaygroundDesign工具你可以簡單地與之交談就像ChatGPT一樣
- 極簡主義Linux發(fā)行版Peropesis2.7附帶存檔和ISO管理工具
- GAMEBABY控制器和外殼混合套裝現(xiàn)已接受預訂