新研究測(cè)試機(jī)器學(xué)習(xí)以檢測(cè)世界語(yǔ)言中的借用單詞
秘魯天主教大學(xué)和馬克斯·普朗克人類歷史科學(xué)研究所的研究人員研究了機(jī)器學(xué)習(xí)算法使用一種語(yǔ)言中的單詞列表來識(shí)別詞匯借用的能力。發(fā)表在《PLOS ONE》雜志上的結(jié)果表明,僅當(dāng)前的機(jī)器學(xué)習(xí)方法不足以進(jìn)行借位檢測(cè),這證明需要額外的數(shù)據(jù)和專家知識(shí)來應(yīng)對(duì)歷史語(yǔ)言學(xué)最緊迫的挑戰(zhàn)之一。
詞匯借用或單詞從一種語(yǔ)言直接轉(zhuǎn)移到另一種語(yǔ)言已經(jīng)引起了幾千年的學(xué)者的興趣,這在柏拉圖的Kratylos對(duì)話中得到了證明,蘇格拉底在對(duì)話中討論了借用單詞對(duì)詞源學(xué)研究帶來的挑戰(zhàn)。在歷史語(yǔ)言學(xué)中,詞匯借用可幫助研究人員追蹤現(xiàn)代語(yǔ)言的發(fā)展,并指出不同語(yǔ)言群體之間的文化聯(lián)系(無論是近期的還是古代的)。但是,用于識(shí)別借用單詞的技術(shù)卻難以形式化,要求研究人員依賴各種代理信息以及多種語(yǔ)言的比較。
主持這項(xiàng)研究的約翰·馬蒂斯·李斯特說:“詞匯借用的自動(dòng)檢測(cè)仍然是我們?cè)谟?jì)算歷史語(yǔ)言學(xué)中面臨的最困難的任務(wù)之一。”
在當(dāng)前的研究中,來自PUCP和MPI-SHH的研究人員采用了不同的機(jī)器學(xué)習(xí)技術(shù)來訓(xùn)練語(yǔ)言模型,這些模型模仿了語(yǔ)言學(xué)家在僅考慮一種語(yǔ)言提供的證據(jù)時(shí)識(shí)別借用的方式:聲音或聲音的組合方式當(dāng)將它們與同一種語(yǔ)言的其他單詞進(jìn)行比較時(shí),形成單詞是非典型的,這通常暗示了最近的借用。然后將模型應(yīng)用于世界貸款數(shù)據(jù)庫(kù)的修改版本,該數(shù)據(jù)庫(kù)是世界各地不同語(yǔ)言家族的40種語(yǔ)言樣本的借入信息目錄,目的是查看給定語(yǔ)言中的單詞將被分類為:是否借用了不同的技術(shù)。
在許多情況下,結(jié)果令人不滿意,這表明借詞檢測(cè)對(duì)于最常用的機(jī)器學(xué)習(xí)方法來說太困難了。但是,在特定情況下,例如在外來詞比例很高的列表中或外來詞主要來自單一捐助者語(yǔ)言的語(yǔ)言中,團(tuán)隊(duì)的詞匯語(yǔ)言模型顯示出一定的希望。
該研究的主要作者,PUCP的約翰·米勒說:“在進(jìn)行了單語(yǔ)詞匯借用的第一個(gè)實(shí)驗(yàn)之后,我們可以著手解決問題的其他方面,轉(zhuǎn)而采用多語(yǔ)和跨語(yǔ)言方法。”
MPI的另一位共同主要作者Tiago Tresoldi補(bǔ)充說:“我們的計(jì)算機(jī)輔助方法以及我們即將發(fā)布的數(shù)據(jù)集,將為計(jì)算機(jī)輔助方法對(duì)語(yǔ)言比較和歷史語(yǔ)言學(xué)的重要性提供新的認(rèn)識(shí)。” SHH。
該研究與正在進(jìn)行的努力一起解決了歷史語(yǔ)言學(xué)中最具挑戰(zhàn)性的問題之一,表明借詞檢測(cè)不能僅依靠單語(yǔ)信息。將來,作者希望開發(fā)出更好的集成方法,以考慮多種語(yǔ)言的信息。
標(biāo)簽: 測(cè)試機(jī)器學(xué)習(xí)