欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁 >> 人工智能 >

    使用機(jī)器學(xué)習(xí)翻譯丟失的語言

    2021-02-09 13:50:51 來源: 用戶: 

    最近的研究表明,已經(jīng)不再存在的大多數(shù)語言 都不再使用。數(shù)十種這些死語也 被認(rèn)為是丟失或“解密”的 ,也就是說,我們對它們的語法,詞匯或語法了解不足,無法真正理解其文本。

    語言的流失不僅僅是一種學(xué)術(shù)上的好奇心;沒有他們,我們會錯過與講他們的人有關(guān)的一整套知識。不幸的是,它們中的大多數(shù)記錄極少,科學(xué)家無法使用Google Translate之類的機(jī)器翻譯算法來解密它們。有些語言沒有經(jīng)過深入研究的“相對”語言可與之進(jìn)行比較,并且通常缺少諸如空格和標(biāo)點符號之類的傳統(tǒng)分隔符。(為說明起見,想像一下用這種語言寫出的外國語言的解釋。)

    烏加特語的示例。圖片來源:Rama via Wikimedia,CC-BY-SA-2.0-FR

    但是,麻省理工學(xué)院 計算機(jī)科學(xué)與人工智能實驗室(CSAIL)的研究人員最近在該領(lǐng)域取得了重大進(jìn)展:一種新系統(tǒng)已被證明能夠自動解密一種丟失的語言,而無需對其與其他語言的關(guān)系有深入的了解。他們還表明,他們的系統(tǒng)本身可以確定語言之間的關(guān)系,并用它來證實最近的學(xué)術(shù)研究,這表明伊比利亞語言實際上與巴斯克語無關(guān)。

    該團(tuán)隊的最終目標(biāo)是使該系統(tǒng)能夠使用幾千個單詞來解密數(shù)十年來一直躲藏在語言學(xué)家手中的語言。

    該系統(tǒng)由麻省理工學(xué)院教授里賈納·巴茲萊(Regina Barzilay)牽頭,它依賴于以歷史語言學(xué)為基礎(chǔ)的幾種原理,例如,語言通常僅以某些可預(yù)測的方式發(fā)展。例如,雖然一種給定的語言很少添加或刪除整個聲音,但是很可能會發(fā)生某些聲音替換。母語中帶有“ p”的單詞可能會在其后代語言中變?yōu)?ldquo; b”,但是由于明顯的發(fā)音差距,變?yōu)?ldquo; k”的可能性較小。

    通過整合這些和其他語言限制,Barzilay和MIT博士生羅嘉明 開發(fā)了一種解密算法 ,該算法可以處理可能的轉(zhuǎn)換的巨大空間以及輸入中引導(dǎo)信號的稀缺性。該算法學(xué)習(xí)將語言聲音嵌入多維空間,在該多維空間中,發(fā)音的差異反映在相應(yīng)矢量之間的距離中。這種設(shè)計使他們能夠捕獲語言變化的相關(guān)模式,并將其表達(dá)為計算約束。生成的模型可以將古代語言中的單詞進(jìn)行細(xì)分,并將其映射到相關(guān)語言中的對應(yīng)單詞。

    該項目建立在Barzilay和Luo去年寫的一篇論文的基礎(chǔ)上, 該論文解密了Ugaritic和Linear B的死語言,后者以前需要數(shù)十年的時間才能被人類解碼。但是,與該項目的主要區(qū)別在于,該團(tuán)隊知道這些語言分別與希伯來語和希臘語的早期形式有關(guān)。

    在新系統(tǒng)中,算法之間可以推斷語言之間的關(guān)系。這個問題是解密中最大的挑戰(zhàn)之一。對于線性B,花了數(shù)十年的時間才發(fā)現(xiàn)正確的已知后代。對于伊比利亞人而言,學(xué)者們?nèi)詿o法就相關(guān)語言達(dá)成一致:有些人主張巴斯克語,而另一些人則反駁了這一假設(shè),并聲稱伊比利亞人與任何??已知語言均無關(guān)。

    該算法可以評估兩種語言之間的接近度。實際上,當(dāng)對已知語言進(jìn)行測試時,它甚至可以準(zhǔn)確地識別語言族。該團(tuán)隊將他們的算法應(yīng)用于考慮了巴斯克(Basque)的伊比利亞人,以及不太可能來自羅曼史,日耳曼語,突厥語和烏拉爾語系的候選人。盡管巴斯克語和拉丁語比其他語言更接近伊比利亞語,但它們?nèi)匀幌嗖钐?,因此不能被認(rèn)為是相關(guān)的。

    在將來的工作中,該小組希望將工作擴(kuò)展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的行為之外,這種方法稱為“基于同源的解密”。這種范例假定存在這樣一種已知的語言,但是以伊比利亞人為例表明,情況并非總是如此。團(tuán)隊的新方法將涉及識別單詞的語義,即使他們不知道如何閱讀它們。

    “例如,我們可以識別文檔中所有涉及人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進(jìn)行進(jìn)一步調(diào)查,” Barzilay說。“這些“實體識別”方法如今已廣泛用于各種文本處理應(yīng)用程序中,并且具有很高的準(zhǔn)確性,但是關(guān)鍵的研究問題是,在沒有任何古代語言培訓(xùn)數(shù)據(jù)的情況下,該任務(wù)是否可行?”

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

     
    分享:
    最新文章
    站長推薦