輕量級(jí)跨語言句子表示學(xué)習(xí)
跨語言句子表示模型可以學(xué)習(xí)跨語言句子檢索和跨語言知識(shí)轉(zhuǎn)移等任務(wù),而無需從頭開始訓(xùn)練新的單語言表示模型。然而,對(duì)輕量級(jí)模型的探索很少。
最近 arXiv.org 上的一篇論文介紹了一種只有兩層的輕量級(jí)雙變壓器架構(gòu)。它顯著降低了內(nèi)存消耗并加速了訓(xùn)練以進(jìn)一步提高效率。針對(duì)生成任務(wù)提出了兩種對(duì)比學(xué)習(xí)方法,以彌補(bǔ)輕量級(jí)轉(zhuǎn)換器的學(xué)習(xí)瓶頸。多語言文檔分類等跨語言任務(wù)的實(shí)驗(yàn)證實(shí)了所建議模型產(chǎn)生穩(wěn)健句子表示的能力。
用于學(xué)習(xí)固定維度跨語言句子表示的大規(guī)模模型,如用于學(xué)習(xí)固定維度跨語言句子表示的大規(guī)模模型,如 LASER(Artetxe 和 Schwenk,2019b)導(dǎo)致下游任務(wù)的性能顯著提高。然而,由于內(nèi)存限制,基于這種大規(guī)模模型的進(jìn)一步增加和修改通常是不切實(shí)際的。在這項(xiàng)工作中,我們引入了一個(gè)只有 2 層的輕量級(jí)雙變換器架構(gòu),用于生成內(nèi)存高效的跨語言句子表示。我們探索了不同的訓(xùn)練任務(wù),并觀察到當(dāng)前的跨語言訓(xùn)練任務(wù)對(duì)于這種淺層架構(gòu)還有很多不足之處。為了改善這一點(diǎn),我們提出了一種新穎的跨語言語言模型,它將現(xiàn)有的單字掩碼語言模型與新提出的跨語言標(biāo)記級(jí)重建任務(wù)相結(jié)合。我們通過引入兩個(gè)計(jì)算精簡的句子級(jí)對(duì)比學(xué)習(xí)任務(wù)來進(jìn)一步增強(qiáng)訓(xùn)練任務(wù),以增強(qiáng)跨語言句子表示空間的對(duì)齊,從而彌補(bǔ)了生成任務(wù)的輕量級(jí)轉(zhuǎn)換器的學(xué)習(xí)瓶頸。我們?cè)诳缯Z言句子檢索和多語言文檔分類方面與競爭模型的比較證實(shí)了新提出的淺層模型訓(xùn)練任務(wù)的有效性。我們通過引入兩個(gè)計(jì)算精簡的句子級(jí)對(duì)比學(xué)習(xí)任務(wù)來進(jìn)一步增強(qiáng)訓(xùn)練任務(wù),以增強(qiáng)跨語言句子表示空間的對(duì)齊,從而彌補(bǔ)了生成任務(wù)的輕量級(jí)轉(zhuǎn)換器的學(xué)習(xí)瓶頸。我們?cè)诳缯Z言句子檢索和多語言文檔分類方面與競爭模型的比較證實(shí)了新提出的淺層模型訓(xùn)練任務(wù)的有效性。我們通過引入兩個(gè)計(jì)算精簡的句子級(jí)對(duì)比學(xué)習(xí)任務(wù)來進(jìn)一步增強(qiáng)訓(xùn)練任務(wù),以增強(qiáng)跨語言句子表示空間的對(duì)齊,從而彌補(bǔ)了生成任務(wù)的輕量級(jí)轉(zhuǎn)換器的學(xué)習(xí)瓶頸。我們?cè)诳缯Z言句子檢索和多語言文檔分類方面與競爭模型的比較證實(shí)了新提出的淺層模型訓(xùn)練任務(wù)的有效性。
標(biāo)簽: