使用機器學習翻譯丟失的語言
最近的研究表明,已經不再存在的大多數(shù)語言 都不再使用。數(shù)十種這些死語也 被認為是丟失或“解密”的 ,也就是說,我們對它們的語法,詞匯或語法了解不足,無法真正理解其文本。
語言的流失不僅僅是一種學術上的好奇心;沒有他們,我們會錯過與講他們的人有關的一整套知識。不幸的是,它們中的大多數(shù)記錄極少,科學家無法使用Google Translate之類的機器翻譯算法來解密它們。有些語言沒有經過深入研究的“相對”語言可與之進行比較,并且通常缺少諸如空格和標點符號之類的傳統(tǒng)分隔符。(為說明起見,想像一下用這種語言寫出的外國語言的解釋。)
烏加特語的示例。圖片來源:Rama via Wikimedia,CC-BY-SA-2.0-FR
但是,麻省理工學院 計算機科學與人工智能實驗室(CSAIL)的研究人員最近在該領域取得了重大進展:一種新系統(tǒng)已被證明能夠自動解密一種丟失的語言,而無需對其與其他語言的關系有深入的了解。他們還表明,他們的系統(tǒng)本身可以確定語言之間的關系,并用它來證實最近的學術研究,這表明伊比利亞語言實際上與巴斯克語無關。
該團隊的最終目標是使該系統(tǒng)能夠使用幾千個單詞來解密數(shù)十年來一直躲藏在語言學家手中的語言。
該系統(tǒng)由麻省理工學院教授里賈納·巴茲萊(Regina Barzilay)牽頭,它依賴于以歷史語言學為基礎的幾種原理,例如,語言通常僅以某些可預測的方式發(fā)展。例如,雖然一種給定的語言很少添加或刪除整個聲音,但是很可能會發(fā)生某些聲音替換。母語中帶有“ p”的單詞可能會在其后代語言中變?yōu)?ldquo; b”,但是由于明顯的發(fā)音差距,變?yōu)?ldquo; k”的可能性較小。
通過整合這些和其他語言限制,Barzilay和MIT博士生羅嘉明 開發(fā)了一種解密算法 ,該算法可以處理可能的轉換的巨大空間以及輸入中引導信號的稀缺性。該算法學習將語言聲音嵌入多維空間,在該多維空間中,發(fā)音的差異反映在相應矢量之間的距離中。這種設計使他們能夠捕獲語言變化的相關模式,并將其表達為計算約束。生成的模型可以將古代語言中的單詞進行細分,并將其映射到相關語言中的對應單詞。
該項目建立在Barzilay和Luo去年寫的一篇論文的基礎上, 該論文解密了Ugaritic和Linear B的死語言,后者以前需要數(shù)十年的時間才能被人類解碼。但是,與該項目的主要區(qū)別在于,該團隊知道這些語言分別與希伯來語和希臘語的早期形式有關。
在新系統(tǒng)中,算法之間可以推斷語言之間的關系。這個問題是解密中最大的挑戰(zhàn)之一。對于線性B,花了數(shù)十年的時間才發(fā)現(xiàn)正確的已知后代。對于伊比利亞人而言,學者們仍無法就相關語言達成一致:有些人主張巴斯克語,而另一些人則反駁了這一假設,并聲稱伊比利亞人與任何??已知語言均無關。
該算法可以評估兩種語言之間的接近度。實際上,當對已知語言進行測試時,它甚至可以準確地識別語言族。該團隊將他們的算法應用于考慮了巴斯克(Basque)的伊比利亞人,以及不太可能來自羅曼史,日耳曼語,突厥語和烏拉爾語系的候選人。盡管巴斯克語和拉丁語比其他語言更接近伊比利亞語,但它們仍然相差太大,因此不能被認為是相關的。
在將來的工作中,該小組希望將工作擴展到將文本與已知語言的相關單詞相關聯(lián)的行為之外,這種方法稱為“基于同源的解密”。這種范例假定存在這樣一種已知的語言,但是以伊比利亞人為例表明,情況并非總是如此。團隊的新方法將涉及識別單詞的語義,即使他們不知道如何閱讀它們。
“例如,我們可以識別文檔中所有涉及人或地點的信息,然后可以根據已知的歷史證據對其進行進一步調查,” Barzilay說。“這些“實體識別”方法如今已廣泛用于各種文本處理應用程序中,并且具有很高的準確性,但是關鍵的研究問題是,在沒有任何古代語言培訓數(shù)據的情況下,該任務是否可行?”
標簽: